論文の概要: DiaDem: Advancing Dialogue Descriptions in Audiovisual Video Captioning for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.19267v1
- Date: Tue, 27 Jan 2026 06:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.213549
- Title: DiaDem: Advancing Dialogue Descriptions in Audiovisual Video Captioning for Multimodal Large Language Models
- Title(参考訳): DiaDem:マルチモーダル大言語モデルのための音声映像キャプションにおける対話記述の改善
- Authors: Xinlong Chen, Weihong Lin, Jingyun Hua, Linli Yao, Yue Ding, Bozhou Li, Bohan Zeng, Yang Shi, Qiang Liu, Yuanxing Zhang, Pengfei Wan, Liang Wang, Tieniu Tan,
- Abstract要約: より正確な対話記述でキャプションを生成することができる強力な音声映像キャプションモデルであるDiaDemを提案する。
まず、SFTのための高品質なデータセットを合成し、さらに対話記述をさらに強化するために、難解な2段階のGRPO戦略を用いる。
DiaDemBenchの大規模な実験によると、商用モデルでさえも、対話対応キャプションの改善の余地がかなり残っている。
- 参考スコア(独自算出の注目度): 42.93374962900657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate dialogue description in audiovisual video captioning is crucial for downstream understanding and generation tasks. However, existing models generally struggle to produce faithful dialogue descriptions within audiovisual captions. To mitigate this limitation, we propose DiaDem, a powerful audiovisual video captioning model capable of generating captions with more precise dialogue descriptions while maintaining strong overall performance. We first synthesize a high-quality dataset for SFT, then employ a difficulty-partitioned two-stage GRPO strategy to further enhance dialogue descriptions. To enable systematic evaluation of dialogue description capabilities, we introduce DiaDemBench, a comprehensive benchmark designed to evaluate models across diverse dialogue scenarios, emphasizing both speaker attribution accuracy and utterance transcription fidelity in audiovisual captions. Extensive experiments on DiaDemBench reveal even commercial models still exhibit substantial room for improvement in dialogue-aware captioning. Notably, DiaDem not only outperforms the Gemini series in dialogue description accuracy but also achieves competitive performance on general audiovisual captioning benchmarks, demonstrating its overall effectiveness.
- Abstract(参考訳): 音声映像キャプションにおける正確な対話記述は、下流の理解と生成に不可欠である。
しかし、既存のモデルは一般的に、オーディオヴィジュアルキャプション内で忠実な対話記述を作成するのに苦労している。
この制限を緩和するためにDiaDemを提案する。DiaDemは、より正確な対話記述でキャプションを生成することができる強力なオーディオ映像キャプションモデルである。
まず、SFTのための高品質なデータセットを合成し、さらに対話記述をさらに強化するために、難解な2段階のGRPO戦略を用いる。
対話記述能力の体系的評価を可能にするために,様々な対話シナリオにまたがるモデル評価のための総合ベンチマークであるDiaDemBenchを導入する。
DiaDemBenchの大規模な実験によると、商用モデルでさえも、対話対応キャプションの改善の余地がかなり残っている。
特に、ダイアデムは、対話記述精度でジェミニシリーズより優れるだけでなく、一般的なオーディオ視覚キャプションベンチマーク上での競合性能も達成し、全体的な効果を示している。
関連論文リスト
- Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model [47.67067056593085]
単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。
これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。
この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
論文 参考訳(メタデータ) (2024-07-02T03:22:41Z) - SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Post-Training Dialogue Summarization using Pseudo-Paraphrasing [12.083992819138716]
本稿では,対話から物語への言い換えとして,事前訓練済み言語モデル(PLM)を提案する。
総合的な実験により,本手法は対話要約におけるバニラPLMを大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-04-28T13:42:19Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。