論文の概要: TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions
- arxiv url: http://arxiv.org/abs/2602.08711v2
- Date: Thu, 12 Feb 2026 06:06:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 14:31:53.423437
- Title: TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions
- Title(参考訳): TimeChat-Captioner: タイムアウェアと構造的オーディオ-ビジュアルキャプションによるマルチシーンビデオのスクリプティング
- Authors: Linli Yao, Yuancheng Wei, Yaojie Zhang, Lei Li, Xinlong Chen, Feifan Song, Ziyue Wang, Kun Ouyang, Yuanxin Liu, Lingpeng Kong, Qi Liu, Pengfei Wan, Kun Gai, Yuanxing Zhang, Xu Sun,
- Abstract要約: 提案するOmni Captioningは,明示的なタイムスタンプによる連続的,きめ細かな,構造化された視覚的物語を生成するために設計された新しいタスクである。
密接なセマンティックカバレッジを確保するため、私たちは6次元構造スキーマを導入し、"script-like"キャプションを作成します。
大規模な実験により、TimeChat-Captioner-7BはGemini-2.5-Proを抜いて最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 64.27159505605312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes Omni Dense Captioning, a novel task designed to generate continuous, fine-grained, and structured audio-visual narratives with explicit timestamps. To ensure dense semantic coverage, we introduce a six-dimensional structural schema to create "script-like" captions, enabling readers to vividly imagine the video content scene by scene, akin to a cinematographic screenplay. To facilitate research, we construct OmniDCBench, a high-quality, human-annotated benchmark, and propose SodaM, a unified metric that evaluates time-aware detailed descriptions while mitigating scene boundary ambiguity. Furthermore, we construct a training dataset, TimeChatCap-42K, and present TimeChat-Captioner-7B, a strong baseline trained via SFT and GRPO with task-specific rewards. Extensive experiments demonstrate that TimeChat-Captioner-7B achieves state-of-the-art performance, surpassing Gemini-2.5-Pro, while its generated dense descriptions significantly boost downstream capabilities in audio-visual reasoning (DailyOmni and WorldSense) and temporal grounding (Charades-STA). All datasets, models, and code will be made publicly available at https://github.com/yaolinli/TimeChat-Captioner.
- Abstract(参考訳): 提案するOmni Dense Captioningは,明瞭なタイムスタンプによる連続的,きめ細かな,構造化された視覚的物語を生成するために設計された新しいタスクである。
密接なセマンティックカバレッジを確保するため,6次元構造スキーマを導入し,映像コンテンツシーンをシーンごとに鮮やかに想像できる「スクリプトライク」キャプションを構築した。
研究を容易にするために,高品質で人手による注釈付きベンチマークであるOmniDCBenchを構築し,シーン境界の曖昧さを軽減しつつ,時間を考慮した詳細な記述を評価する統一メトリクスであるSodaMを提案する。
さらに、トレーニングデータセットであるTimeChatCap-42Kと現在のTimeChatCaptioner-7Bを構築する。
広汎な実験により、TimeChat-Captioner-7BはGemini-2.5-Proを上回り、その密度の高い記述は、音声視覚推論(DailyOmniとWorldSense)と時間的グラウンド(Charades-STA)のダウンストリーム能力を著しく向上させることが示された。
すべてのデータセット、モデル、コードはhttps://github.com/yaolinli/TimeChat-Captioner.comで公開される。
関連論文リスト
- HiVid-Narrator: Hierarchical Video Narrative Generation with Scene-Primed ASR-anchored Compression [7.305586811678626]
本稿では,Eコマースの階層的ビデオキャプションデータセットについて紹介する。
我々はまず,ASRとフレームレベルの記述を用いて,信頼性の高い言語的・視覚的証拠を収集する段階的構成を採用する。
本稿では,マルチモーダルトークンを階層的なシーンに圧縮するScene-Primed ASR-anchored Caption (SPA-Compressor)を提案する。
論文 参考訳(メタデータ) (2026-01-12T09:41:31Z) - TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。
TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。
i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-05T12:54:56Z) - DisTime: Distribution-based Time Representation for Video Large Language Models [23.176698643825123]
DisTimeは、ビデオLLMにおける時間的理解を強化するために設計された軽量フレームワークである。
DisTimeは、連続的な時間的埋め込みスペースを作成するために学習可能なトークンを使用する。
DisTimeは3つの時間に敏感なタスクでベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-30T08:10:18Z) - AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [89.73538448786405]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding [20.037781644877388]
TimeChatは、長いビデオ理解のために特別に設計された、時間に敏感なマルチモーダルな大規模言語モデルである。
本モデルは,(1) フレームのタイムスタンプに視覚的コンテンツをバインドするタイムスタンプ対応フレームエンコーダ,(2) 長さの異なるビデオトークンシーケンスを生成するスライドビデオQ-Formerの2つの重要なアーキテクチャ的コントリビューションを含む。
論文 参考訳(メタデータ) (2023-12-04T17:09:52Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。