論文の概要: D-ORCA: Dialogue-Centric Optimization for Robust Audio-Visual Captioning
- arxiv url: http://arxiv.org/abs/2602.07960v1
- Date: Sun, 08 Feb 2026 13:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.892211
- Title: D-ORCA: Dialogue-Centric Optimization for Robust Audio-Visual Captioning
- Title(参考訳): D-ORCA:ロバスト・オーディオ・ビジュアル・キャプションのための対話中心最適化
- Authors: Changli Tang, Tianyi Wang, Fengyun Rao, Jing Lyu, Chao Zhang,
- Abstract要約: 音声対話はビデオの主要な情報源である。
D-ORCA (textbfdialogue-centric textbfomni-modal large language model) を導入する。
D-ORCAは、話者識別、音声認識、時間的接地において、既存のオープンソースモデルを大幅に上回っている。
- 参考スコア(独自算出の注目度): 16.073168212151348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken dialogue is a primary source of information in videos; therefore, accurately identifying who spoke what and when is essential for deep video understanding. We introduce D-ORCA, a \textbf{d}ialogue-centric \textbf{o}mni-modal large language model optimized for \textbf{r}obust audio-visual \textbf{ca}ptioning. We further curate DVD, a large-scale, high-quality bilingual dataset comprising nearly 40,000 multi-party dialogue videos for training and 2000 videos for evaluation in English and Mandarin, addressing a critical gap in the open-source ecosystem. To ensure fine-grained captioning accuracy, we adopt group relative policy optimization with three novel reward functions that assess speaker attribution accuracy, global speech content accuracy, and sentence-level temporal boundary alignment. These rewards are derived from evaluation metrics widely used in speech processing and, to our knowledge, are applied for the first time as reinforcement learning objectives for audio-visual captioning. Extensive experiments demonstrate that D-ORCA substantially outperforms existing open-source models in speaker identification, speech recognition, and temporal grounding. Notably, despite having only 8 billion parameters, D-ORCA achieves performance competitive with Qwen3-Omni across several general-purpose audio-visual understanding benchmarks. Demos are available at \href{https://d-orca-llm.github.io/}{https://d-orca-llm.github.io/}. Our code, data, and checkpoints will be available at \href{https://github.com/WeChatCV/D-ORCA/}{https://github.com/WeChatCV/D-ORCA/}.
- Abstract(参考訳): 音声対話はビデオにおける主要な情報源であり、それ故、誰が何をいつ話すかが深層ビデオ理解に欠かせないのかを正確に特定する。
D-ORCA, D-ORCA, a \textbf{d}ialogue-centric \textbf{o}mni-modal large language model optimized for \textbf{r}obust audio-visual \textbf{ca}ptioning。
さらに、トレーニング用に4万本近い多人数の対話ビデオと、英語とマンダリン語で評価するための2000本のビデオからなる、大規模で高品質なバイリンガルデータセットであるDVDをキュレートし、オープンソースエコシステムにおける重要なギャップに対処する。
詳細なキャプション精度を確保するために,話者属性の精度,大域的音声内容の精度,文章レベルの時間的境界アライメントを評価できる3つの新しい報酬関数を用いたグループ相対政策最適化を採用する。
これらの報酬は、音声処理に広く用いられている評価指標から導出され、我々の知る限り、音声・視覚的キャプションのための強化学習目的として初めて適用される。
大規模な実験により、D-ORCAは話者識別、音声認識、時間的接地において、既存のオープンソースモデルを大幅に上回っていることが示された。
特に、80億のパラメータしか持たないにもかかわらず、D-ORCAはQwen3-Omniといくつかの汎用オーディオ視覚理解ベンチマークで競合するパフォーマンスを実現している。
デモは \href{https://d-orca-llm.github.io/}{https://d-orca-llm.github.io/} で公開されている。
私たちのコード、データ、チェックポイントは、 \href{https://github.com/WeChatCV/D-ORCA/}{https://github.com/WeChatCV/D-ORCA/}で利用可能になります。
関連論文リスト
- FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion [14.43138123445589]
高品質で大規模な音声キャプションは、音声理解の進歩に不可欠である。
現在の自動化手法は、細かな細部や文脈の正確さに欠けるキャプションを生成することが多い。
本稿では,複雑な音声環境のよりきめ細やかで正確な理解方法を提案する。
論文 参考訳(メタデータ) (2025-06-01T18:29:17Z) - Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models [27.54879344983513]
Video-SALMONNは、視覚的なフレームシーケンス、オーディオイベント、音楽だけでなく、音声も理解できる。
Video-SALMONNは、他のav-LLMでは前例のないタスクに対して、驚くべきビデオ理解と推論能力を示す。
論文 参考訳(メタデータ) (2024-06-22T01:36:11Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。