論文の概要: TA-Prompting: Enhancing Video Large Language Models for Dense Video Captioning via Temporal Anchors
- arxiv url: http://arxiv.org/abs/2601.02908v1
- Date: Tue, 06 Jan 2026 10:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.898661
- Title: TA-Prompting: Enhancing Video Large Language Models for Dense Video Captioning via Temporal Anchors
- Title(参考訳): TAプロンプティング:テンポラルアンカーによる高密度ビデオキャプションのためのビデオ大言語モデルの強化
- Authors: Wei-Yuan Cheng, Kai-Po Chang, Chi-Pin Huang, Fu-En Yang, Yu-Chiang Frank Wang,
- Abstract要約: デンスビデオキャプションは、入力ビデオ全体の時間的局所化イベントを解釈し、記述することを目的としている。
近年の最先端技術は,ビデオデータに詳細なモーメント記述を提供するために,大規模言語モデル(LLM)を活用している。
本稿では,TA-Promptingを提案する。TA-Promptingはテンポラルアンカーを介し,イベントを正確にローカライズし,ビデオLLMに時間対応のビデオイベント理解を促す。
- 参考スコア(独自算出の注目度): 40.48528326378281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense video captioning aims to interpret and describe all temporally localized events throughout an input video. Recent state-of-the-art methods leverage large language models (LLMs) to provide detailed moment descriptions for video data. However, existing VideoLLMs remain challenging in identifying precise event boundaries in untrimmed videos, causing the generated captions to be not properly grounded. In this paper, we propose TA-Prompting, which enhances VideoLLMs via Temporal Anchors that learn to precisely localize events and prompt the VideoLLMs to perform temporal-aware video event understanding. During inference, in order to properly determine the output caption sequence from an arbitrary number of events presented within a video, we introduce an event coherent sampling strategy to select event captions with sufficient coherence across temporal events and cross-modal similarity with the given video. Through extensive experiments on benchmark datasets, we show that our TA-Prompting is favorable against state-of-the-art VideoLLMs, yielding superior performance on dense video captioning and temporal understanding tasks including moment retrieval and temporalQA.
- Abstract(参考訳): デンスビデオキャプションは、入力ビデオ全体の時間的局所化イベントを解釈し、記述することを目的としている。
近年の最先端技術は,ビデオデータに詳細なモーメント記述を提供するために,大規模言語モデル(LLM)を活用している。
しかし、既存のビデオLLMは、未トリミングビデオの正確なイベント境界を特定することが困難なままであり、生成されたキャプションが適切に根拠付けられていない。
本稿では,TA-Promptingを提案する。TA-Promptingは,時間的アンカーを介し,イベントを正確にローカライズし,ビデオLLMに時間的対応の映像イベント理解を促す。
推論の際には,ビデオ内の任意の回数のイベントから出力されるキャプションシーケンスを適切に決定するために,イベントコヒーレントなサンプリング戦略を導入する。
ベンチマークデータセットの広範な実験を通して、我々のTA-Promptingは最先端のVideoLLMに対して好適であり、高密度ビデオキャプションやモーメント検索や時間QAなどの時間的理解タスクにおいて優れた性能が得られることを示す。
関連論文リスト
- Controllable Hybrid Captioner for Improved Long-form Video Understanding [1.2035789357951119]
ビデオデータは極めて密度が高く、高次元である。
テキストベースの動画コンテンツの要約は、生よりはるかにコンパクトな方法でコンテンツを表現する方法を提供する。
静的なシーン記述でメモリを豊かにするビジョン言語モデル(VLM)を導入する。
論文 参考訳(メタデータ) (2025-07-22T22:09:00Z) - Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。