論文の概要: TRACE: Temporal Grounding Video LLM via Causal Event Modeling
- arxiv url: http://arxiv.org/abs/2410.05643v1
- Date: Tue, 8 Oct 2024 02:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:29:06.767497
- Title: TRACE: Temporal Grounding Video LLM via Causal Event Modeling
- Title(参考訳): TRACE:因果イベントモデリングによる時間的接地ビデオLLM
- Authors: Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Qingbin Liu, Xi Chen,
- Abstract要約: ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。
現在のビデオLLMは自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がない。
本稿では,映像をイベントのシーケンスとして表現する因果イベントモデリングフレームワークを導入し,過去のイベントやビデオ入力,テクスチャインストラクションを用いて現在のイベントを予測する。
本稿では,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。
- 参考スコア(独自算出の注目度): 6.596327795743185
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video Temporal Grounding (VTG) is a crucial capability for video understanding models and plays a vital role in downstream tasks such as video browsing and editing. To effectively handle various tasks simultaneously and enable zero-shot prediction, there is a growing trend in employing video LLMs for VTG tasks. However, current video LLM-based methods rely exclusively on natural language generation, lacking the ability to model the clear structure inherent in videos, which restricts their effectiveness in tackling VTG tasks. To address this issue, this paper first formally introduces causal event modeling framework, which represents videos as sequences of events, and predict the current event using previous events, video inputs, and textural instructions. Each event consists of three components: timestamps, salient scores, and textual captions. We then propose a novel task-interleaved video LLM called TRACE to effectively implement the causal event modeling framework in practice. The TRACE processes visual frames, timestamps, salient scores, and text as distinct tasks, employing various encoders and decoding heads for each. Task tokens are arranged in an interleaved sequence according to the causal event modeling framework's formulation. Extensive experiments on various VTG tasks and datasets demonstrate the superior performance of TRACE compared to state-of-the-art video LLMs. Our model and code are available at \url{https://github.com/gyxxyg/TRACE}.
- Abstract(参考訳): ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。
様々なタスクを効果的に同時に処理し、ゼロショット予測を可能にするために、VTGタスクにビデオLLMを採用する傾向が高まっている。
しかしながら、現在のビデオLLMベースの手法は、自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がないため、VTGタスクの処理効率が制限されている。
この問題に対処するために,本稿ではまず,ビデオをイベントのシーケンスとして表現する因果イベントモデリングフレームワークを導入し,過去のイベントやビデオ入力,テクスチャインストラクションを用いて現在のイベントを予測する。
各イベントは、タイムスタンプ、健全なスコア、テキストキャプションの3つのコンポーネントで構成される。
次に,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。
TRACEは視覚フレーム、タイムスタンプ、健全なスコア、テキストを異なるタスクとして処理し、それぞれに様々なエンコーダとデコードヘッドを使用する。
タスクトークンは、因果イベントモデリングフレームワークの定式化に従ってインターリーブシーケンスに配置される。
様々なVTGタスクとデータセットに関する大規模な実験は、最先端のビデオLLMと比較してTRACEの優れた性能を示している。
我々のモデルとコードは \url{https://github.com/gyxxyg/TRACE} で利用可能です。
関連論文リスト
- Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - Multi-event Video-Text Retrieval [33.470499262092105]
Video-Text Retrieval(VTR)は、インターネット上の大量のビデオテキストデータの時代において重要なマルチモーダルタスクである。
マルチイベントビデオテキスト検索(MeVTR)タスクを導入し、各ビデオが複数の異なるイベントを含むシナリオに対処する。
本稿では,MeVTRタスクにキーイベント映像表現とMeVTRロスを付加したシンプルなモデルMe-Retrieverを提案する。
論文 参考訳(メタデータ) (2023-08-22T16:32:46Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。