Fugu-MT 論文翻訳(概要): TRACE: Temporal Grounding Video LLM via Causal Event Modeling

論文の概要: TRACE: Temporal Grounding Video LLM via Causal Event Modeling

arxiv url: http://arxiv.org/abs/2410.05643v1
Date: Tue, 8 Oct 2024 02:46:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 17:29:06.767497
Title: TRACE: Temporal Grounding Video LLM via Causal Event Modeling
Title（参考訳）: TRACE:因果イベントモデリングによる時間的接地ビデオLLM
Authors: Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Qingbin Liu, Xi Chen,
Abstract要約: ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。現在のビデオLLMは自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がない。本稿では,映像をイベントのシーケンスとして表現する因果イベントモデリングフレームワークを導入し,過去のイベントやビデオ入力,テクスチャインストラクションを用いて現在のイベントを予測する。本稿では,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。
参考スコア（独自算出の注目度）: 6.596327795743185
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video Temporal Grounding (VTG) is a crucial capability for video understanding models and plays a vital role in downstream tasks such as video browsing and editing. To effectively handle various tasks simultaneously and enable zero-shot prediction, there is a growing trend in employing video LLMs for VTG tasks. However, current video LLM-based methods rely exclusively on natural language generation, lacking the ability to model the clear structure inherent in videos, which restricts their effectiveness in tackling VTG tasks. To address this issue, this paper first formally introduces causal event modeling framework, which represents videos as sequences of events, and predict the current event using previous events, video inputs, and textural instructions. Each event consists of three components: timestamps, salient scores, and textual captions. We then propose a novel task-interleaved video LLM called TRACE to effectively implement the causal event modeling framework in practice. The TRACE processes visual frames, timestamps, salient scores, and text as distinct tasks, employing various encoders and decoding heads for each. Task tokens are arranged in an interleaved sequence according to the causal event modeling framework's formulation. Extensive experiments on various VTG tasks and datasets demonstrate the superior performance of TRACE compared to state-of-the-art video LLMs. Our model and code are available at \url{https://github.com/gyxxyg/TRACE}.
Abstract（参考訳）: ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。様々なタスクを効果的に同時に処理し、ゼロショット予測を可能にするために、VTGタスクにビデオLLMを採用する傾向が高まっている。しかしながら、現在のビデオLLMベースの手法は、自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がないため、VTGタスクの処理効率が制限されている。この問題に対処するために,本稿ではまず,ビデオをイベントのシーケンスとして表現する因果イベントモデリングフレームワークを導入し,過去のイベントやビデオ入力,テクスチャインストラクションを用いて現在のイベントを予測する。各イベントは、タイムスタンプ、健全なスコア、テキストキャプションの3つのコンポーネントで構成される。次に,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。 TRACEは視覚フレーム、タイムスタンプ、健全なスコア、テキストを異なるタスクとして処理し、それぞれに様々なエンコーダとデコードヘッドを使用する。タスクトークンは、因果イベントモデリングフレームワークの定式化に従ってインターリーブシーケンスに配置される。様々なVTGタスクとデータセットに関する大規模な実験は、最先端のビデオLLMと比較してTRACEの優れた性能を示している。我々のモデルとコードは \url{https://github.com/gyxxyg/TRACE} で利用可能です。

関連論文リスト

VideoPerceiver: Enhancing Fine-Grained Temporal Perception in Video Multimodal Large Language Models [9.896951371033229]
VideoPerceiverはビデオ理解における微細な認識を高めるビデオマルチモーダル大言語モデル(VMLLM)である。そこで我々は,キャプションからイベントアクションキーワードを抽出し,対応するキーフレームを識別し,隣接するフレームに置き換えることで,キー情報伝達ビデオを構築する。 VideoPerceiverは、詳細なアクション理解とまれなイベントキャプションベンチマークにおいて、最先端のVMLLMを大幅に上回っている。
論文参考訳（メタデータ） (2025-11-24T06:57:26Z)
TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding [83.96715649130435]
VTGタスクを効果的に分解するMixture-of-Experts(MoE)ベースのVideo-LLMであるTimeExpertを紹介する。我々の設計選択は各サブタスクの正確な処理を可能にし、様々なVTGアプリケーション間でのイベントモデリングの改善につながります。
論文参考訳（メタデータ） (2025-08-03T10:03:58Z)
From Shots to Stories: LLM-Assisted Video Editing with Unified Language Representations [0.9217021281095907]
大言語モデル(LLM)と視覚言語モデル(VLM)は、ビデオ理解において顕著な推論と一般化能力を示している。本稿では,ビデオ編集の文脈におけるLLMの体系的研究について述べる。
論文参考訳（メタデータ） (2025-05-18T05:25:11Z)
Mind the Time: Temporally-Controlled Multi-Event Video Generation [65.05423863685866]
時間制御を備えたマルチイベントビデオジェネレータMinTを提案する。私たちの重要な洞察は、各イベントを生成されたビデオの特定の期間にバインドすることで、モデルが一度にひとつのイベントに集中できるようにすることです。文献の中ではじめて、我々のモデルは生成されたビデオのイベントのタイミングを制御できる。
論文参考訳（メタデータ） (2024-12-06T18:52:20Z)
Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文参考訳（メタデータ） (2024-10-14T12:35:12Z)
Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文参考訳（メタデータ） (2024-08-29T02:25:12Z)
VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding [10.548950058205833]
Video Temporal Grounding (VTG)は、言語クエリを使用して特定のビデオ内のイベントタイムスタンプを正確に特定する。ビデオ大言語モデル(ビデオLLM)は、ゼロショット方式で複数のタスクを同時に処理することができる。本稿では,ビデオLLMのタイムスタンプローカライゼーション能力を向上させるモデルであるVTG-LLMを紹介する。
論文参考訳（メタデータ） (2024-05-22T06:31:42Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。 InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文参考訳（メタデータ） (2023-10-16T17:05:56Z)
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文参考訳（メタデータ） (2023-09-26T17:36:26Z)
Multi-event Video-Text Retrieval [33.470499262092105]
Video-Text Retrieval(VTR)は、インターネット上の大量のビデオテキストデータの時代において重要なマルチモーダルタスクである。マルチイベントビデオテキスト検索(MeVTR)タスクを導入し、各ビデオが複数の異なるイベントを含むシナリオに対処する。本稿では,MeVTRタスクにキーイベント映像表現とMeVTRロスを付加したシンプルなモデルMe-Retrieverを提案する。
論文参考訳（メタデータ） (2023-08-22T16:32:46Z)
VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文参考訳（メタデータ） (2023-05-22T17:51:22Z)
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文参考訳（メタデータ） (2022-06-14T20:43:25Z)
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文参考訳（メタデータ） (2021-11-24T18:31:20Z)
UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。 2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文参考訳（メタデータ） (2020-02-15T10:03:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。