論文の概要: Enhancing Temporal Modeling of Video LLMs via Time Gating
- arxiv url: http://arxiv.org/abs/2410.05714v1
- Date: Tue, 8 Oct 2024 06:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 13:19:50.172598
- Title: Enhancing Temporal Modeling of Video LLMs via Time Gating
- Title(参考訳): 時間ゲーティングによるビデオLLMの時間的モデリングの強化
- Authors: Zi-Yuan Hu, Yiwu Zhong, Shijia Huang, Michael R. Lyu, Liwei Wang,
- Abstract要約: ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、ビデオ質問応答などのビデオ・アンド・ランゲージ・タスクにおいて、優れたパフォーマンスを達成している。
既存のビデオLLMはビデオデータの時間的情報を無視しており、時間的認識のビデオ理解に苦慮している。
時間ゲーティングビデオLLM(TG-Vid)を提案する。
- 参考スコア(独自算出の注目度): 38.86742466948778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (Video LLMs) have achieved impressive performance on video-and-language tasks, such as video question answering. However, most existing Video LLMs neglect temporal information in video data, leading to struggles with temporal-aware video understanding. To address this gap, we propose a Time Gating Video LLM (TG-Vid) designed to enhance temporal modeling through a novel Time Gating module (TG). The TG module employs a time gating mechanism on its sub-modules, comprising gating spatial attention, gating temporal attention, and gating MLP. This architecture enables our model to achieve a robust understanding of temporal information within videos. Extensive evaluation of temporal-sensitive video benchmarks (i.e., MVBench, TempCompass, and NExT-QA) demonstrates that our TG-Vid model significantly outperforms the existing Video LLMs. Further, comprehensive ablation studies validate that the performance gains are attributed to the designs of our TG module. Our code is available at https://github.com/LaVi-Lab/TG-Vid.
- Abstract(参考訳): ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、ビデオ質問応答などのビデオ・アンド・ランゲージ・タスクにおいて、優れたパフォーマンスを達成している。
しかし、既存のビデオLLMはビデオデータの時間的情報を無視しており、時間的認識のビデオ理解に苦慮している。
このギャップに対処するために、新しいTime Gating Module (TG) を通して時間的モデリングを強化するためのTime Gating Video LLM (TG-Vid) を提案する。
TGモジュールは、時空間の注意、時空間の注意、時空間の注意、時空間の注意、時空間のMLPを含む時時ゲーティング機構をサブモジュールに採用している。
このアーキテクチャにより、ビデオ内の時間情報の堅牢な理解が可能になる。
時間感受性ビデオベンチマーク(MVBench, TempCompass, NExT-QA)の広範囲な評価により, 既存のビデオLLMよりもTG-Vidモデルの方が優れていることが示された。
さらに、総合的なアブレーション研究により、性能向上は、我々のTGモジュールの設計によるものであることが検証された。
私たちのコードはhttps://github.com/LaVi-Lab/TG-Vid.comで公開されています。
関連論文リスト
- ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos [25.988212332357545]
ReVisionLLMは、1時間ビデオ中のイベントを見つけるために設計された視覚言語モデルである。
人間の検索戦略にインスパイアされた私たちのモデルは、当初は幅広い関心領域をターゲットとしていました。
私たちのモデルは、数分から数時間の間、非常に異なる長さの動画をシームレスに処理することができます。
論文 参考訳(メタデータ) (2024-11-22T12:46:50Z) - TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning [42.928144657587325]
本稿では,従来のショートフォームビデオMLLMを長大なビデオ理解に適用するための新デザインであるTimeSuiteを提案する。
TimeSuiteは、ショートフォームMLLMの長いビデオ理解能力を向上するための、成功したソリューションを提供する。
さらに,9つのタスクと349kの高品質な接地アノテーションからなる総合的な接地中心の命令データセットであるTimeProを紹介する。
論文 参考訳(メタデータ) (2024-10-25T17:19:55Z) - VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding [7.907951246007355]
ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、特定のビデオ内のイベントタイムスタンプを正確に識別することに焦点を当てている。
ビデオ大言語モデル(ビデオLLM)は、ビデオコンテンツを理解する上で大きな進歩を遂げてきたが、ビデオ内のタイムスタンプを正確に特定する上で、しばしば課題に直面している。
本稿では,VTGタスクのための特殊なビデオLLMモデルであるVTG-LLMを提案し,タイムスタンプの知識を視覚トークンに効果的に統合する。
論文 参考訳(メタデータ) (2024-05-22T06:31:42Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。