論文の概要: TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions
- arxiv url: http://arxiv.org/abs/2602.08711v1
- Date: Mon, 09 Feb 2026 14:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.286282
- Title: TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions
- Title(参考訳): TimeChat-Captioner: タイムアウェアと構造的オーディオ-ビジュアルキャプションによるマルチシーンビデオのスクリプティング
- Authors: Linli Yao, Yuancheng Wei, Yaojie Zhang, Lei Li, Xinlong Chen, Feifan Song, Ziyue Wang, Kun Ouyang, Yuanxin Liu, Lingpeng Kong, Qi Liu, Pengfei Wan, Kun Gai, Yuanxing Zhang, Xu Sun,
- Abstract要約: 提案するOmni Captioningは,明示的なタイムスタンプによる連続的,きめ細かな,構造化された視覚的物語を生成するために設計された新しいタスクである。
密接なセマンティックカバレッジを確保するため、私たちは6次元構造スキーマを導入し、"script-like"キャプションを作成します。
大規模な実験により、TimeChat-Captioner-7BはGemini-2.5-Proを抜いて最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 64.27159505605312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes Omni Dense Captioning, a novel task designed to generate continuous, fine-grained, and structured audio-visual narratives with explicit timestamps. To ensure dense semantic coverage, we introduce a six-dimensional structural schema to create "script-like" captions, enabling readers to vividly imagine the video content scene by scene, akin to a cinematographic screenplay. To facilitate research, we construct OmniDCBench, a high-quality, human-annotated benchmark, and propose SodaM, a unified metric that evaluates time-aware detailed descriptions while mitigating scene boundary ambiguity. Furthermore, we construct a training dataset, TimeChatCap-42K, and present TimeChat-Captioner-7B, a strong baseline trained via SFT and GRPO with task-specific rewards. Extensive experiments demonstrate that TimeChat-Captioner-7B achieves state-of-the-art performance, surpassing Gemini-2.5-Pro, while its generated dense descriptions significantly boost downstream capabilities in audio-visual reasoning (DailyOmni and WorldSense) and temporal grounding (Charades-STA). All datasets, models, and code will be made publicly available at https://github.com/yaolinli/TimeChat-Captioner.
- Abstract(参考訳): 提案するOmni Dense Captioningは,明瞭なタイムスタンプによる連続的,きめ細かな,構造化された視覚的物語を生成するために設計された新しいタスクである。
密接なセマンティックカバレッジを確保するため,6次元構造スキーマを導入し,映像コンテンツシーンをシーンごとに鮮やかに想像できる「スクリプトライク」キャプションを構築した。
研究を容易にするために,高品質で人手による注釈付きベンチマークであるOmniDCBenchを構築し,シーン境界の曖昧さを軽減しつつ,時間を考慮した詳細な記述を評価する統一メトリクスであるSodaMを提案する。
さらに、トレーニングデータセットであるTimeChatCap-42Kと現在のTimeChatCaptioner-7Bを構築する。
広汎な実験により、TimeChat-Captioner-7BはGemini-2.5-Proを上回り、その密度の高い記述は、音声視覚推論(DailyOmniとWorldSense)と時間的グラウンド(Charades-STA)のダウンストリーム能力を著しく向上させることが示された。
すべてのデータセット、モデル、コードはhttps://github.com/yaolinli/TimeChat-Captioner.comで公開される。
関連論文リスト
- HiVid-Narrator: Hierarchical Video Narrative Generation with Scene-Primed ASR-anchored Compression [7.305586811678626]
本稿では,Eコマースの階層的ビデオキャプションデータセットについて紹介する。
我々はまず,ASRとフレームレベルの記述を用いて,信頼性の高い言語的・視覚的証拠を収集する段階的構成を採用する。
本稿では,マルチモーダルトークンを階層的なシーンに圧縮するScene-Primed ASR-anchored Caption (SPA-Compressor)を提案する。
論文 参考訳(メタデータ) (2026-01-12T09:41:31Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。