論文の概要: CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation
- arxiv url: http://arxiv.org/abs/2601.16547v1
- Date: Fri, 23 Jan 2026 08:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.606862
- Title: CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation
- Title(参考訳): CORD: 軽量のオンラインクロスモーダル蒸留によるオーディオテキスト推論ギャップのブリッジ
- Authors: Jing Hu, Danxiang Zhu, Xianlong Luo, Dan Zhang, Shuwei He, Yishu Lei, Haitao Zheng, Shikun Feng, Jingzhou He, Yu Sun, Hua Wu, Haifeng Wang,
- Abstract要約: オンラインクロスモーダル自己蒸留を行う統合アライメントフレームワークであるCORDを提案する。
具体的には、音声条件の推論とテキスト条件の推論を統一モデル内で一致させる。
複数のベンチマークにまたがる実験結果から、CORDは音声条件推論を一貫して強化することが示された。
- 参考スコア(独自算出の注目度): 32.72685791637924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio Language Models (LALMs) have garnered significant research interest. Despite being built upon text-based large language models (LLMs), LALMs frequently exhibit a degradation in knowledge and reasoning capabilities. We hypothesize that this limitation stems from the failure of current training paradigms to effectively bridge the acoustic-semantic gap within the feature representation space. To address this challenge, we propose CORD, a unified alignment framework that performs online cross-modal self-distillation. Specifically, it aligns audio-conditioned reasoning with its text-conditioned counterpart within a unified model. Leveraging the text modality as an internal teacher, CORD performs multi-granularity alignment throughout the audio rollout process. At the token level, it employs on-policy reverse KL divergence with importance-aware weighting to prioritize early and semantically critical tokens. At the sequence level, CORD introduces a judge-based global reward to optimize complete reasoning trajectories via Group Relative Policy Optimization (GRPO). Empirical results across multiple benchmarks demonstrate that CORD consistently enhances audio-conditioned reasoning and substantially bridges the audio-text performance gap with only 80k synthetic training samples, validating the efficacy and data efficiency of our on-policy, multi-level cross-modal alignment approach.
- Abstract(参考訳): LALM(Large Audio Language Models)は、大きな研究の関心を集めている。
テキストベースの大規模言語モデル(LLM)上に構築されているにもかかわらず、LALMは知識と推論能力の低下をしばしば示している。
この制限は、現在の訓練パラダイムが、特徴表現空間内の音響-意味的ギャップを効果的に橋渡しできないことに起因している、という仮説を立てる。
この課題に対処するために,オンラインのクロスモーダル自己蒸留を行う統合アライメントフレームワークであるCORDを提案する。
具体的には、音声条件の推論とテキスト条件の推論を統一モデル内で一致させる。
テキストモダリティを内部教師として活用することで、CORDはオーディオロールアウトプロセス全体を通して多粒度アライメントを行う。
トークンレベルでは、初期および意味論的に重要なトークンを優先順位付けするために、重要を意識した重み付けを備えた、政治上の逆KL分岐を用いる。
シーケンスレベルでは、CORDは、グループ相対ポリシー最適化(GRPO)を介して完全な推論軌道を最適化するために、判断に基づくグローバル報酬を導入する。
複数のベンチマークにおける実験結果から,CORDは音声条件の推論を一貫して強化し,80kの合成トレーニングサンプルで音声テキストのパフォーマンスギャップを実質的に埋めることを示した。
関連論文リスト
- Joint Multimodal Contrastive Learning for Robust Spoken Term Detection and Keyword Spotting [13.48022380380599]
本研究では,共用組込み空間における音響・クロスモーダル監視を統一するマルチモーダルコントラスト学習フレームワークを提案する。
i) CLAPの損失にインスパイアされた音声テキストのコントラスト学習と, (ii) 音声音声のコントラスト学習をDeep Word Discrimination (DWD) の損失で同時に最適化し, クラス内コンパクト性とクラス間分離性を高める。
提案手法は,STDとKWSの両方を柔軟にサポートしながら,単語識別タスクにおける既存のAWEベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-12-16T05:58:25Z) - DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Supervised Speech Foundational Model [65.93900011975238]
DELULUは、話者を意識した、検証、ダイアリゼーション、プロファイリングのための基礎モデルである。
マスク付き予測と妄想を組み合わせ、堅牢性と一般化をさらに強化する2つの目的を用いて訓練される。
以上の結果から,DELULUは話者認識音声処理の強力なユニバーサルエンコーダであり,タスク固有の微調整がなくても優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-10-20T15:35:55Z) - Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models [12.263637152835713]
LSLM(End-to-end Large Speech Language Models)では,会話生成能力が顕著に向上している。
粗くきめ細かなテキストと音声表現の両方を解析する。
表現類似性はモダリティギャップと強く相関していることがわかった。
論文 参考訳(メタデータ) (2025-10-14T03:34:38Z) - When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models [18.160420407067743]
MCR-BENCHは、LALMが一貫性のない音声テキストペアを提示する際にどのように情報を優先するかを評価するために設計された最初のベンチマークである。
モダリティ間に不整合が存在する場合、LALMはテキスト入力に対して有意なバイアスを示す。
この傾向は、オーディオ中心のタスクのパフォーマンスを著しく低下させ、現実世界のアプリケーションにとって重要な信頼性上の懸念を引き起こす。
論文 参考訳(メタデータ) (2025-08-21T09:58:24Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [8.717610965852037]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。
応答を話者対応音声合成により合成音声に変換する。
マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文 参考訳(メタデータ) (2025-06-04T15:42:53Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Adaptive Inner Speech-Text Alignment for LLM-based Speech Translation [20.415410280412697]
本研究では,大言語モデル (LLM) 内の選択された層における音声とテキストの表現を明示的に整合させることにより,モダリティギャップを埋める適応的内部音声テキストアライメント (AI-STA) 手法を提案する。
音声翻訳タスクにおける実験結果から、AI-STAは、従来の最先端手法よりも大きな音声テキストモデル(LSM)の翻訳性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-03-13T09:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。