論文の概要: AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
- arxiv url: http://arxiv.org/abs/2510.10395v1
- Date: Sun, 12 Oct 2025 01:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.919318
- Title: AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
- Title(参考訳): AVoCaDO: テンポラルオーケストレーションによるオーディオ映像キャピタ
- Authors: Xinlong Chen, Yue Ding, Weihong Lin, Jingyun Hua, Linli Yao, Yang Shi, Bozhou Li, Yuanxing Zhang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan,
- Abstract要約: AVoCaDOは、音声と視覚の時間的オーケストレーションによって駆動される強力な映像キャプタである。
実験の結果,AVoCaDOは4つの音声映像キャプションベンチマークにおいて,既存のオープンソースモデルよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 41.31057204656161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audiovisual video captioning aims to generate semantically rich descriptions with temporal alignment between visual and auditory events, thereby benefiting both video understanding and generation. In this paper, we present AVoCaDO, a powerful audiovisual video captioner driven by the temporal orchestration between audio and visual modalities. We propose a two-stage post-training pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2) AVoCaDO GRPO, which leverages tailored reward functions to further enhance temporal coherence and dialogue accuracy while regularizing caption length and reducing collapse. Experimental results demonstrate that AVoCaDO significantly outperforms existing open-source models across four audiovisual video captioning benchmarks, and also achieves competitive performance on the VDC and DREAM-1K benchmark under visual-only settings.
- Abstract(参考訳): 視覚的映像キャプションは、視覚的事象と聴覚的事象の時間的整合を伴う意味的に豊かな記述を生成することを目的としており、映像理解と生成の両方の恩恵を受ける。
本稿では,音声と視覚の時間的オーケストレーションによって駆動される強力な映像キャプタであるAVoCaDOについて述べる。
AVoCaDO SFTは107Kの高品位で時間的に整合した音声視覚キャプションを新たに作成したデータセット上でモデルを微調整し、(2)AVoCaDO GRPOは、調整された報酬関数を利用して、キャプションの長さを規則化しながら時間的コヒーレンスと対話の精度をさらに向上し、分解を低減する。
AVoCaDOは、4つのオーディオ映像キャプションベンチマークで既存のオープンソースモデルよりも大幅に優れており、視覚のみの設定でVDCおよびDREAM-1Kベンチマーク上での競合性能も達成している。
関連論文リスト
- Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation [62.218932509432314]
従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。
音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
論文 参考訳(メタデータ) (2025-04-08T07:23:28Z) - From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding [36.20990265600332]
PU-VALORは114,000本以上の擬似アンリム化ビデオと詳細な時間的アノテーションを含む包括的オーディオ視覚データセットである。
PU-VALORは、イベントベースのビデオクラスタリングを含む微妙な方法で、大規模だが粗い注釈付きオーディオ視覚データセットVALORから派生した。
AVicunaは、音声・視覚イベントを時間間隔と対応するテキストトークンに整列できるモデルである。
論文 参考訳(メタデータ) (2024-03-24T19:50:49Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。