論文の概要: VTimeLLM: Empower LLM to Grasp Video Moments
- arxiv url: http://arxiv.org/abs/2311.18445v1
- Date: Thu, 30 Nov 2023 10:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 16:52:15.070355
- Title: VTimeLLM: Empower LLM to Grasp Video Moments
- Title(参考訳): VTimeLLM: LLMをGraspビデオモーメントに活用
- Authors: Bin Huang, Xin Wang, Hong Chen, Zihan Song, Wenwu Zhu
- Abstract要約: 大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
- 参考スコア(独自算出の注目度): 43.51980030572101
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have shown remarkable text understanding
capabilities, which have been extended as Video LLMs to handle video data for
comprehending visual details. However, existing Video LLMs can only provide a
coarse description of the entire video, failing to capture the precise start
and end time boundary of specific events. In this paper, we solve this issue
via proposing VTimeLLM, a novel Video LLM designed for fine-grained video
moment understanding and reasoning with respect to time boundary. Specifically,
our VTimeLLM adopts a boundary-aware three-stage training strategy, which
respectively utilizes image-text pairs for feature alignment, multiple-event
videos to increase temporal-boundary awareness, and high-quality
video-instruction tuning to further improve temporal understanding ability as
well as align with human intents. Extensive experiments demonstrate that in
fine-grained time-related comprehension tasks for videos such as Temporal Video
Grounding and Dense Video Captioning, VTimeLLM significantly outperforms
existing Video LLMs. Besides, benefits from the fine-grained temporal
understanding of the videos further enable VTimeLLM to beat existing Video LLMs
in video dialogue benchmark, showing its superior cross-modal understanding and
reasoning abilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、視覚的詳細を理解するためのビデオデータを処理するためにビデオLLMとして拡張された、顕著なテキスト理解能力を示している。
しかし、既存のビデオLLMはビデオ全体の粗い記述しか提供できず、特定のイベントの正確な開始時間と終了時間の境界を捉えていない。
本稿では,ビデオモーメントの理解と推論のための新しいビデオllmであるvtimellmを提案することで,この問題を解決する。
特にvtimellmでは,画像テキストペアを特徴のアライメントに,複数イベントビデオによる時間境界意識の向上,高品質なビデオインストラクションチューニングをそれぞれ活用し,時間理解能力の向上と人間の意図の整合を両立させる,境界認識3段階のトレーニング戦略を採用している。
テンポラルビデオグラウンディングやDense Video Captioningのようなビデオの細かな時間関連理解タスクにおいて、VTimeLLMは既存のビデオLLMよりも大幅に優れていた。
さらに、ビデオの微妙な時間的理解の恩恵により、VTimeLLMは既存のビデオLLMをビデオ対話ベンチマークで破り、その優れたクロスモーダル理解と推論能力を示す。
関連論文リスト
- TempCompass: Do Video LLMs Really Understand Videos? [37.654437491817525]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
時間的側面とタスクフォーマットの多様性を導入した textbfTemp ベンチマークを提案する。
Tempをベースとして,8つの最先端(SOTA)ビデオLLMと3つの画像LLMを総合的に評価し,これらのモデルが時間知覚能力に劣ることを示す。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z) - LLMs Meet Long Video: Advancing Long Video Comprehension with An
Interactive Visual Adapter in LLMs [24.79384819644494]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - Momentor: Advancing Video Large Language Model with Fine-Grained
Temporal Reasoning [106.96340369164349]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文 参考訳(メタデータ) (2024-02-18T03:04:38Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Grounding-Prompter: Prompting LLM with Multimodal Information for
Temporal Sentence Grounding in Long Videos [42.32528440002539]
テンポラル・センテンス・グラウンドディング(TSG)は、与えられた自然言語クエリに基づいてビデオからモーメントをローカライズすることを目的としている。
既存の作品は、主にショートビデオ用に設計されており、長いビデオではTSGを処理できない。
LLMにマルチモーダル情報を持たせることで、長いビデオでTSGを実行できるグラウンディング・プロンプター法を提案する。
論文 参考訳(メタデータ) (2023-12-28T16:54:21Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。