Fugu-MT 論文翻訳(概要): Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection

論文の概要: Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection

arxiv url: http://arxiv.org/abs/2401.12471v2
Date: Wed, 28 Aug 2024 09:48:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 21:09:20.894952
Title: Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection
Title（参考訳）: 動的フレーム選択による学習自由行動認識とゴール推論
Authors: Ee Yeo Keat, Zhang Hao, Alexander Matyasko, Basura Fernando,
Abstract要約: VidTFSはトレーニング不要でオープンなビデオ目標とアクション推論フレームワークである。提案するフレーム選択モジュールは,フレームワークの性能を大幅に向上させることを示す。提案したVidTFSの性能を,広範に使用されている4つのビデオデータセット上で検証する。
参考スコア（独自算出の注目度）: 51.004020874336284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce VidTFS, a Training-free, open-vocabulary video goal and action inference framework that combines the frozen vision foundational model (VFM) and large language model (LLM) with a novel dynamic Frame Selection module. Our experiments demonstrate that the proposed frame selection module improves the performance of the framework significantly. We validate the performance of the proposed VidTFS on four widely used video datasets, including CrossTask, COIN, UCF101, and ActivityNet, covering goal inference and action recognition tasks under open-vocabulary settings without requiring any training or fine-tuning. The results show that VidTFS outperforms pretrained and instruction-tuned multimodal language models that directly stack LLM and VFM for downstream video inference tasks. Our VidTFS with its adaptability shows the future potential for generalizing to new training-free video inference tasks.
Abstract（参考訳）: 凍結視覚基礎モデル(VFM)と大規模言語モデル(LLM)を新しい動的フレーム選択モジュールと組み合わせた,トレーニングフリーでオープンなビデオ目標とアクション推論フレームワークであるVidTFSを紹介した。提案するフレーム選択モジュールは,フレームワークの性能を大幅に向上させることを示す。提案したVidTFSは,CrossTask,COIN,UCF101,ActivityNetなど,広く使用されている4つのビデオデータセット上で,学習や微調整を必要とせず,オープン語彙設定下での目標推論と行動認識タスクをカバーしている。その結果、VidTFSは、下流ビデオ推論タスクにおいて、LLMとVFMを直接積み重ねる事前訓練および命令調整型マルチモーダル言語モデルよりも優れていた。我々のVidTFSとその適応性は、新しいトレーニング不要なビデオ推論タスクへの一般化の可能性を示している。

関連論文リスト

FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。 Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文参考訳（メタデータ） (2025-09-28T17:59:43Z)
Video-VoT-R1: An efficient video inference model integrating image packing and AoE architecture [3.850138059878136]
本稿では,KunLunBaize-VoT-R1ビデオ推論モデルを提案する。実験により、このモデルは複数のテストにおいて卓越した性能を示し、ビデオ言語理解のための新しいソリューションを提供する。
論文参考訳（メタデータ） (2025-03-20T02:50:57Z)
TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文参考訳（メタデータ） (2024-11-17T13:08:29Z)
Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文参考訳（メタデータ） (2024-10-14T12:35:12Z)
Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文参考訳（メタデータ） (2024-02-06T06:27:40Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。 VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文参考訳（メタデータ） (2023-05-22T15:54:22Z)
Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。 MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文参考訳（メタデータ） (2022-07-15T17:59:11Z)
Self-Supervised Video Representation Learning with Motion-Contrastive Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet) MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文参考訳（メタデータ） (2022-04-10T05:34:46Z)
UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。 2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文参考訳（メタデータ） (2020-02-15T10:03:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。