論文の概要: Video LLMs for Temporal Reasoning in Long Videos
- arxiv url: http://arxiv.org/abs/2412.02930v1
- Date: Wed, 04 Dec 2024 00:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 21:42:00.510923
- Title: Video LLMs for Temporal Reasoning in Long Videos
- Title(参考訳): 長時間ビデオにおける時間的推論のためのビデオLLM
- Authors: Fawad Javed Fateh, Umer Ahmed, Hamza Khan, M. Zeeshan Zia, Quoc-Huy Tran,
- Abstract要約: テンポラルVLM(TemporalVLM)は、ビデオ大言語モデルであり、時間的推論を効果的に行い、長いビデオにおいてきめ細やかな理解を可能にする。
我々のアプローチには、長期入力ビデオの時間認識機能へのマッピングと、ローカルおよびグローバルの両方のキューを含むビジュアルエンコーダが含まれる。
- 参考スコア(独自算出の注目度): 7.2900856926028155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces TemporalVLM, a video large language model capable of effective temporal reasoning and fine-grained understanding in long videos. At the core, our approach includes a visual encoder for mapping a long-term input video into features which are time-aware and contain both local and global cues. In particular, it first divides the input video into short-term clips, which are jointly encoded with their timestamps into time-sensitive local features. Next, the local features are passed through a bidirectional long short-term memory module for global feature aggregation. The extracted time-aware and multi-level features are important for accurate temporal reasoning and fine-grained understanding in long videos. Moreover, to facilitate the evaluation of TemporalVLM, we present a large-scale long video dataset of industry assembly processes, namely IndustryASM, which consists of videos recorded on factory floors with actions and timestamps annotated by industrial engineers for time and motion studies and temporal action segmentation evaluation. Finally, extensive experiments on datasets of long videos, including TimeIT and IndustryASM, show that TemporalVLM achieves superior performance than previous methods across temporal reasoning and fine-grained understanding tasks, namely dense video captioning, temporal video grounding, video highlight detection, and temporal action segmentation.
- Abstract(参考訳): 本稿では,ビデオ大言語モデルであるTemporalVLMについて紹介する。
提案手法のコアとなるのは,長期入力映像をタイムアウェアな機能にマッピングするビジュアルエンコーダである。
特に、入力されたビデオは短期的なクリップに分割され、タイムスタンプと共同でコード化され、時間に敏感なローカル機能に変換される。
次に、ローカル機能は、グローバルな機能集約のために双方向の長い短期メモリモジュールを通して渡される。
抽出した時間認識およびマルチレベル特徴は、時間的推論の正確化と長いビデオにおけるきめ細かな理解に重要である。
さらに,TemporalVLMの評価を容易にするために,工場の床に記録されたアクションとタイムスタンプを産業技術者がアノテートし,時間的・動作的なセグメンテーション評価と時間的アクションセグメンテーション評価を行う,産業組み立てプロセスの大規模ビデオデータセットであるIndustrialASMを提案する。
最後に、TimeITやIndustrialASMなど、長いビデオのデータセットに関する広範な実験により、TemporalVLMは、時間的推論や微妙な理解タスク、すなわち高密度なビデオキャプション、時間的ビデオグラウンド、ビデオハイライト検出、時間的アクションセグメンテーションなど、従来の方法よりも優れたパフォーマンスを実現していることが示された。
関連論文リスト
- VideoExpert: Augmented LLM for Temporal-Sensitive Video Understanding [48.745013691038295]
VideoExpertは、複数の時間に敏感なビデオタスクに適した汎用MLLMである。
時間の専門家は、時系列をモデル化し、時間的接地を行う責任を負う。
空間専門家は、コンテンツの詳細分析と以下の指示に焦点を当てている。
コンテンツ生成から時間的グラウンドをオフロードすることで、VideoExpertはタイムスタンプ予測におけるテキストパターンのバイアスを防ぐ。
論文 参考訳(メタデータ) (2025-04-10T07:33:39Z) - LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders [9.996331443220651]
長ビデオマスク埋め込みオートエンコーダ(LV-MAE)を紹介する。
LV-MAEは長期表現のための自己教師型学習フレームワークである。
3つの長ビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-04-04T14:56:27Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability [26.376975842846235]
ビデオコンテンツに基づく高品質な対話のための多目的ビデオLLMであるTimeMarkerを導入し、時間的ローカライゼーションを強調した。
TimeMarkerはTemporal Separator Tokensを統合して、時間的認識を高め、ビデオ内の特定の瞬間を正確にマークする。
動的フレームサンプリングと適応トークンマージにAnyLengthメカニズムを使用し、ショートビデオとロングビデオの両方を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-27T10:45:40Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Enhancing Temporal Modeling of Video LLMs via Time Gating [38.86742466948778]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、ビデオ質問応答などのビデオ・アンド・ランゲージ・タスクにおいて、優れたパフォーマンスを達成している。
既存のビデオLLMはビデオデータの時間的情報を無視しており、時間的認識のビデオ理解に苦慮している。
時間ゲーティングビデオLLM(TG-Vid)を提案する。
論文 参考訳(メタデータ) (2024-10-08T06:21:29Z) - Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - TemporalMaxer: Maximize Temporal Context with only Max Pooling for
Temporal Action Localization [52.234877003211814]
我々は,抽出したビデオクリップの特徴から情報を最大化しながら,長期の時間的文脈モデリングを最小化するTemporalMaxerを紹介する。
我々は、TemporalMaxerが、長期時間文脈モデリングを利用した他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-16T03:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。