論文の概要: Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards
- arxiv url: http://arxiv.org/abs/2510.20867v1
- Date: Thu, 23 Oct 2025 06:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.275134
- Title: Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards
- Title(参考訳): Reasoning Process Rewards によるLLMの一貫性, 有効, スケーラブルなReasoning能力のインセンティブ化
- Authors: Jiajun Fan, Roger Ren, Jingyuan Li, Rahul Pandey, Prashanth Gurunath Shivakumar, Ivan Bulyko, Ankur Gandhe, Ge Liu, Yile Gu,
- Abstract要約: 音声大言語モデルにおけるロバストでスケーラブルな推論法を開発するための原理的手法を開発した。
MMAU 2.5 Pro と GPT-4o Audio をほぼ上回り、MMSU の推論タスクにおけるほぼ人間レベルの性能を向上する。
- 参考スコア(独自算出の注目度): 24.40159537923851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The role of reasoning in Audio Large Language Models remains widely underexplored, as introducing a reasoning process often degrades rather than improves performance during inference, a phenomenon we term test-time inverse scaling, where longer reasoning chains yield progressively worse results. We demonstrate that this stems not from fundamental limitations of reasoning itself, but from inadequate training: models without proper guidance for the reasoning process produce hallucinatory, inconsistent reasoning that accumulates errors over longer chains. To address these challenges, we introduce CESAR (Consistent, Effective, and Scalable Audio Reasoners), shifting from outcome verification to rewarding the reasoning process. Our online reinforcement learning framework employs Group Relative Policy Optimization with a multi-faceted reward suite that incentivizes not only correctness and format but also consistency, structured analytical patterns, causal reasoning, domain-knowledge integration, and calibrated reasoning depth. CESAR resolves test-time inverse scaling, transforming reasoning from detriments into gains while revealing model-specific ``reasoning sweet spots", where performance peaks during test-time scaling. We achieve state-of-the-art results on MMAU Test-mini, substantially outperforming Gemini 2.5 Pro and GPT-4o Audio, and near-human-level performance on MMSU reasoning tasks. Through AI-as-judge evaluations and qualitative comparisons, we provide both quantitative and qualitative validation of our improved reasoning quality. Importantly, enhanced reasoning creates synergistic effects, simultaneously improving multimodal reasoning and perception capabilities. Overall, CESAR establishes a principled method for developing robust and scalable reasoning in Audio LLMs.
- Abstract(参考訳): 音声大言語モデルにおける推論の役割は、推論中のパフォーマンスを改善するのではなく、推論プロセスを導入することでしばしば劣化する。
推論プロセスの適切なガイダンスのないモデルは、長い連鎖のエラーを蓄積する幻覚的で一貫性のない推論を生み出します。
これらの課題に対処するため、CESAR(Consistent, Effective, and Scalable Audio Reasoners)を導入し、結果検証から推論プロセスの報酬へと移行した。
我々のオンライン強化学習フレームワークでは、グループ相対政策最適化と、正しさと形式だけでなく、一貫性、構造化された分析パターン、因果推論、ドメイン知識の統合、キャリブレーションされた推論深度を動機付ける多面的な報酬スイートを採用しています。
CESARは、テスト時の逆スケーリングを解決し、デトリメントからゲインへの推論を変換し、テスト時間のスケーリング中にパフォーマンスがピークとなるモデル固有の‘""スイーツスポット"を明らかにした。
MMAU 2.5 Pro と GPT-4o Audio をほぼ上回り、MMSU の推論タスクにおけるほぼ人間レベルの性能を向上する。
AI-as-judge評価と質的比較を通じて、改善した推論品質の定量的および質的検証を提供する。
重要なことは、強化された推論は相乗効果を生み出し、同時にマルチモーダル推論と知覚能力を改善することである。
全体として、CESARはAudio LLMで堅牢でスケーラブルな推論を開発するための原則的な方法を確立している。
関連論文リスト
- Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning [41.255832127671205]
大規模音声言語モデル(LALM)の推論能力を高めるための強化学習フレームワークであるAudio-Thinkerを提案する。
提案手法は適応的思考精度報酬を導入し,タスクに基づいた推論戦略を動的に調整する。
実験の結果,Audio-Thinkerモデルは,様々なベンチマークタスクにおいて,既存の推論指向のLALMよりも優れていた。
論文 参考訳(メタデータ) (2025-08-11T14:41:10Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model [26.20569269005708]
LALM(Large Audio-Language Models)は、音声知覚や理解に関わるタスクにおいて顕著な性能を示す。
しかし、それらの推論能力は、複雑な現実世界の問題を解決するのに重要なものであり、まだ未解明のままである。
聴覚モダリティを越えた推論能力を高めるため, LALMへのCoT推論の統合を初めて実施する。
論文 参考訳(メタデータ) (2025-01-13T11:54:40Z) - CSCE: Boosting LLM Reasoning by Simultaneous Enhancing of Causal Significance and Consistency [11.144164626192904]
チェーン・オブ・シンキング(CoT)のような連鎖型手法は、大規模言語モデル(LLM)の推論タスクの解決において、その役割を担っている。
本稿では、因果的重要性と一貫性を同時に考慮する非チェーン型推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T08:28:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。