論文の概要: Escape the Language Prior: Mitigating Late-Stage Modality Collapse in Audio Reasoning via Modality-Aware Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.27741v1
- Date: Tue, 26 May 2026 22:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.584285
- Title: Escape the Language Prior: Mitigating Late-Stage Modality Collapse in Audio Reasoning via Modality-Aware Policy Optimization
- Title(参考訳): 先行する言語をエスケープする: モーダリティ・アウェア・ポリシー最適化による音声推論における後期モーダリティの崩壊の軽減
- Authors: Cihan Xiao, Yiwen Shao, Chenxing Li, Xiang He, Zhenwen Liang, Steve Yves, Sanjeev Khudanpur, Liefeng Bo,
- Abstract要約: 両ブランチ強化学習フレームワークであるMAPO(Modality-Aware Policy Optimization)を紹介する。
まず、MAPOはモダリティクリティカルトークンのポリシー勾配を動的に集中させる。
第二に、モデルの内部の注意分布にターゲットを絞った時間スケールのペナルティを適用する、補助的な注意損失ブランチを統合する。
- 参考スコア(独自算出の注目度): 40.86280811828235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio and omni-modal large language models exhibit impressive cross-modal reasoning capabilities. However, applying standard reinforcement learning post-training algorithms to these models exposes a critical structural vulnerability: methods like GRPO apply uniform policy gradients across all tokens, ignoring their unequal dependence on the non-text source modality. This exacerbates late-stage modality collapse during extended chain-of-thought generation, where models progressively abandon the primary source signal in favor of compressed textual priors, leading to confident but ungrounded hallucinations. To address this, we introduce Modality-Aware Policy Optimization (MAPO), a novel dual-branch reinforcement learning framework. First, MAPO dynamically concentrates the policy gradient on modality-critical tokens using a modality relevance mask, which is derived from the cross-modal differential entropy between an audio-ablated reference and the multimodal policy. Second, it integrates an auxiliary attention loss branch that applies a targeted, temporally scaled penalty to the model's internal attention distributions. This ensures the model actively sustains cross-modal grounding deep into the reasoning trace. Evaluations on complex audio reasoning benchmarks demonstrate that MAPO substantially improves long-horizon reasoning fidelity and multimodal instruction following, achieving highly competitive performance and setting new state-of-the-art results on several key benchmarks among open-weight models. By relying strictly on native statistical signals rather than domain-specific inductive biases, MAPO offers a promising foundation for mitigating epistemic collapse across diverse multimodal systems.
- Abstract(参考訳): オーディオおよびオムニモーダルな大言語モデルは、印象的なクロスモーダルな推論能力を示す。
しかし、これらのモデルに標準的な強化学習のポストトレーニングアルゴリズムを適用すると、重要な構造的脆弱性が明らかになる。
このことは後段のモダリティの崩壊を悪化させ、モデルが圧縮されたテキストの先行を優先してプライマリ・ソース・シグナルを徐々に放棄し、自信あるが根拠のない幻覚へと繋がる。
そこで本研究では,新しい二分岐強化学習フレームワークであるMAPO(Modality-Aware Policy Optimization)を紹介する。
まず、MAPOは、モーダリティ関連マスクを用いて、モーダリティクリティカルトークンのポリシー勾配を動的に集中させる。
第二に、モデルの内部の注意分布にターゲットを絞った時間スケールのペナルティを適用する、補助的な注意損失ブランチを統合する。
これにより、モデルは、推論トレースの奥深くへのクロスモーダルグラウンドを積極的に維持できる。
複雑な音声推論ベンチマークの評価は、MAPOが長軸推論の忠実度とマルチモーダル命令を著しく改善し、高い競争性能を達成し、オープンウェイトモデルのいくつかの重要なベンチマークに新しい最先端結果を設定することを実証している。
ドメイン固有の帰納バイアスではなく、ネイティブな統計信号に厳密に依存することにより、MAPOは多様なマルチモーダルシステム間でのてんかんの崩壊を緩和するための有望な基盤を提供する。
関連論文リスト
- Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - Evaluation Before Generation: A Paradigm for Robust Multimodal Sentiment Analysis with Missing Modalities [21.767502810187477]
モダリティの欠如は、マルチモーダルな感情分析において根本的な課題となる。
既存のアプローチは主に、素早い学習と事前訓練されたモデルを通じて堅牢性を改善する。
Promptベースのミスモダリティ適応フレームワークがこれらの問題に対処するために提案されている。
論文 参考訳(メタデータ) (2026-04-07T07:59:06Z) - Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization [4.088161686930475]
オームニLLMにおけるモーダリティグラウンドリングを改善するためのモーダリティデカップリング直接選好最適化(MoD-DPO)を提案する。
MoD-DPOは、無関係なモダリティにおける汚職への不変性、および関連するモダリティにおける摂動に対する感受性を明示的に強制するモダリティ対応正規化用語を導入している。
実験により、MoD-DPOは認識精度と幻覚抵抗を一貫して改善し、従来の優先最適化基準よりも優れていた。
論文 参考訳(メタデータ) (2026-03-03T17:50:24Z) - Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection [54.10252086842123]
マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。
本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。
4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-11-09T11:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。