論文の概要: VTimeLLM: Empower LLM to Grasp Video Moments
- arxiv url: http://arxiv.org/abs/2311.18445v1
- Date: Thu, 30 Nov 2023 10:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 16:52:15.070355
- Title: VTimeLLM: Empower LLM to Grasp Video Moments
- Title(参考訳): VTimeLLM: LLMをGraspビデオモーメントに活用
- Authors: Bin Huang, Xin Wang, Hong Chen, Zihan Song, Wenwu Zhu
- Abstract要約: 大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
- 参考スコア(独自算出の注目度): 43.51980030572101
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have shown remarkable text understanding
capabilities, which have been extended as Video LLMs to handle video data for
comprehending visual details. However, existing Video LLMs can only provide a
coarse description of the entire video, failing to capture the precise start
and end time boundary of specific events. In this paper, we solve this issue
via proposing VTimeLLM, a novel Video LLM designed for fine-grained video
moment understanding and reasoning with respect to time boundary. Specifically,
our VTimeLLM adopts a boundary-aware three-stage training strategy, which
respectively utilizes image-text pairs for feature alignment, multiple-event
videos to increase temporal-boundary awareness, and high-quality
video-instruction tuning to further improve temporal understanding ability as
well as align with human intents. Extensive experiments demonstrate that in
fine-grained time-related comprehension tasks for videos such as Temporal Video
Grounding and Dense Video Captioning, VTimeLLM significantly outperforms
existing Video LLMs. Besides, benefits from the fine-grained temporal
understanding of the videos further enable VTimeLLM to beat existing Video LLMs
in video dialogue benchmark, showing its superior cross-modal understanding and
reasoning abilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、視覚的詳細を理解するためのビデオデータを処理するためにビデオLLMとして拡張された、顕著なテキスト理解能力を示している。
しかし、既存のビデオLLMはビデオ全体の粗い記述しか提供できず、特定のイベントの正確な開始時間と終了時間の境界を捉えていない。
本稿では,ビデオモーメントの理解と推論のための新しいビデオllmであるvtimellmを提案することで,この問題を解決する。
特にvtimellmでは,画像テキストペアを特徴のアライメントに,複数イベントビデオによる時間境界意識の向上,高品質なビデオインストラクションチューニングをそれぞれ活用し,時間理解能力の向上と人間の意図の整合を両立させる,境界認識3段階のトレーニング戦略を採用している。
テンポラルビデオグラウンディングやDense Video Captioningのようなビデオの細かな時間関連理解タスクにおいて、VTimeLLMは既存のビデオLLMよりも大幅に優れていた。
さらに、ビデオの微妙な時間的理解の恩恵により、VTimeLLMは既存のビデオLLMをビデオ対話ベンチマークで破り、その優れたクロスモーダル理解と推論能力を示す。
関連論文リスト
- TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning [42.928144657587325]
本稿では,従来のショートフォームビデオMLLMを長大なビデオ理解に適用するための新デザインであるTimeSuiteを提案する。
TimeSuiteは、ショートフォームMLLMの長いビデオ理解能力を向上するための、成功したソリューションを提供する。
さらに,9つのタスクと349kの高品質な接地アノテーションからなる総合的な接地中心の命令データセットであるTimeProを紹介する。
論文 参考訳(メタデータ) (2024-10-25T17:19:55Z) - Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner [53.671484175063995]
ビデオ-LLMはショートビデオの処理のために事前訓練されており、長いビデオコンテンツを理解するための幅広いアプリケーションを制限する。
固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:59:55Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - HawkEye: Training Video-Text LLMs for Grounding Text in Videos [44.870165050047355]
我々は,HawkEyeを提案する。HawkEyeは,時間的ビデオグラウンドディングをテキストからテキストまで完全に行う最初のビデオテキストLLMの1つである。
時間的ビデオグラウンドイングに適用可能なトレーニングデータを収集するために,セグメントレベルのキャプションと負のスパンを持つ大規模ビデオテキストコーパスであるInternVid-Gを構築した。
また,ビデオ中のセグメントを粗い粒度で表現する手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T11:58:18Z) - LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs [22.696090318037925]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。