論文の概要: TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2508.01699v1
- Date: Sun, 03 Aug 2025 10:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.018217
- Title: TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding
- Title(参考訳): TimeExpert: ビデオの時間的グラウンドのためのエキスパートガイド付きビデオLLM
- Authors: Zuhao Yang, Yingchen Yu, Yunqing Zhao, Shijian Lu, Song Bai,
- Abstract要約: VTGタスクを効果的に分解するMixture-of-Experts(MoE)ベースのVideo-LLMであるTimeExpertを紹介する。
我々の設計選択は各サブタスクの正確な処理を可能にし、様々なVTGアプリケーション間でのイベントモデリングの改善につながります。
- 参考スコア(独自算出の注目度): 83.96715649130435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Temporal Grounding (VTG) aims to precisely identify video event segments in response to textual queries. The outputs of VTG tasks manifest as sequences of events, each defined by precise timestamps, saliency scores, and textual descriptions. Despite recent advances, a fundamental limitation persists in existing Video Large Language Models (Video-LLMs): they process all task tokens through identical and static pathways, failing to recognize that temporal localization, saliency assessment, and textual generation represent fundamentally distinct tasks requiring specialized processing. To address this, we introduce TimeExpert, a Mixture-of-Experts (MoE)-based Video-LLM that effectively decomposes VTG tasks by dynamically routing task-specific tokens (e.g., timestamps, saliency scores) to specialized experts, with increased computational efficiency. Our design choices enable precise handling of each subtask, leading to improved event modeling across diverse VTG applications. Extensive experiments demonstrate that TimeExpert consistently achieves state-of-the-art performance on various VTG tasks such as Dense Video Captioning, Moment Retrieval, and Video Highlight Detection.
- Abstract(参考訳): Video Temporal Grounding (VTG)は、テキストクエリに応答して、ビデオイベントセグメントを正確に識別することを目的としている。
VTGタスクの出力はイベントのシーケンスとして表され、それぞれ正確なタイムスタンプ、サリエンシスコア、テキスト記述によって定義される。
近年の進歩にもかかわらず、既存のビデオ大言語モデル (Video Large Language Models, Video-LLMs) では基本的な制限が持続している。
そこで本稿では,タスク固有のトークン(タイムスタンプ,給与スコアなど)を専門の専門家に動的にルーティングすることで,VTGタスクを効果的に分解するTimeExpertを紹介する。
我々の設計選択は各サブタスクの正確な処理を可能にし、様々なVTGアプリケーション間でのイベントモデリングの改善につながります。
大規模な実験により、TimeExpertは、Dense Video Captioning、Moment Retrieval、Video Highlight Detectionといった様々なVTGタスクにおいて、常に最先端のパフォーマンスを実現している。
関連論文リスト
- VideoExpert: Augmented LLM for Temporal-Sensitive Video Understanding [48.745013691038295]
VideoExpertは、複数の時間に敏感なビデオタスクに適した汎用MLLMである。
時間の専門家は、時系列をモデル化し、時間的接地を行う責任を負う。
空間専門家は、コンテンツの詳細分析と以下の指示に焦点を当てている。
コンテンツ生成から時間的グラウンドをオフロードすることで、VideoExpertはタイムスタンプ予測におけるテキストパターンのバイアスを防ぐ。
論文 参考訳(メタデータ) (2025-04-10T07:33:39Z) - TRACE: Temporal Grounding Video LLM via Causal Event Modeling [6.596327795743185]
ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。
現在のビデオLLMは自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がない。
本稿では、ビデオLLM出力をイベントのシーケンスとして表現し、過去のイベント、ビデオ入力、テキスト命令を用いて現在のイベントを予測する因果イベントモデリングフレームワークを提案する。
本稿では,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。
論文 参考訳(メタデータ) (2024-10-08T02:46:30Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding [10.548950058205833]
Video Temporal Grounding (VTG)は、言語クエリを使用して特定のビデオ内のイベントタイムスタンプを正確に特定する。
ビデオ大言語モデル(ビデオLLM)は、ゼロショット方式で複数のタスクを同時に処理することができる。
本稿では,ビデオLLMのタイムスタンプローカライゼーション能力を向上させるモデルであるVTG-LLMを紹介する。
論文 参考訳(メタデータ) (2024-05-22T06:31:42Z) - UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization [83.89550658314741]
ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。
本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
論文 参考訳(メタデータ) (2024-04-04T03:28:57Z) - UniVTG: Towards Unified Video-Language Temporal Grounding [52.56732639951834]
Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。
我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。
統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
論文 参考訳(メタデータ) (2023-07-31T14:34:49Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。