論文の概要: Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models
- arxiv url: http://arxiv.org/abs/2604.18187v1
- Date: Mon, 20 Apr 2026 12:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.866383
- Title: Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models
- Title(参考訳): Audio-DeepThinker: 音声言語モデルにおける高品質連鎖生成のためのプログレッシブ・推論・アウェア強化学習
- Authors: Xiang He, Chenxing Li, Jinting Wang, Yan Rong, Tianxin Xie, Wenfu Wang, Li Liu, Dong Yu,
- Abstract要約: 既存の音声推論の手法は、教師付きチェーン・オブ・ファインチューニングや強化学習に依存している。
本稿では,2つの中核的アイデアに基づくフレームワークであるAudio-DeepThinkerを提案する。
ステージ1は基本的音響QAを訓練し、基本的推論パターンを育成し、ステージ2は音響的に挑戦的な境界ケースにシフトする。
Audio-DeepThinkerはMMAR(74.0%)、MMAU-test-mini(78.5%)、MMSU(77.26%)の最先端結果を達成する
- 参考スコア(独自算出の注目度): 33.669071786618495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) have made significant progress in audio understanding, yet they primarily operate as perception-and-answer systems without explicit reasoning processes. Existing methods for enhancing audio reasoning rely either on supervised chain-of-thought (CoT) fine-tuning, which is limited by training data quality, or on reinforcement learning (RL) with coarse rewards that do not directly evaluate reasoning quality. As a result, the generated reasoning chains often appear well-structured yet lack specific acoustic grounding. We propose Audio-DeepThinker, a framework built on two core ideas. First, we introduce a hybrid reasoning similarity reward that directly supervises the quality of generated reasoning chains by combining an LLM evaluator assessing logical path alignment, key step coverage, and analytical depth with an embedding similarity component enforcing semantic alignment with reference reasoning chains. Second, we propose a progressive two-stage curriculum that enables high-quality CoT reasoning to emerge through pure RL exploration, without any supervised reasoning fine-tuning, from an instruction-tuned model that possesses no prior chain-of-thought capability. Stage 1 trains on foundational audio QA with the hybrid reward to foster basic reasoning patterns, while Stage 2 shifts to acoustically challenging boundary cases with an LLM-only reward for greater reasoning diversity. Audio-DeepThinker achieves state-of-the-art results on MMAR (74.0%), MMAU-test-mini (78.5%), and MMSU (77.26%), winning 1st Place in the Interspeech 2026 Audio Reasoning Challenge (Single Model Track). Interpretability analyses further reveal that RL training primarily reshapes upper-layer MoE gating mechanisms and that reasoning tokens crystallize progressively in the upper transformer layers, offering mechanistic insights into how audio reasoning emerges through exploration.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、音声理解において大きな進歩を遂げているが、主に知覚・答えシステムとして機能する。
既存の音声推論の手法は、訓練データの品質に制限される教師付きチェーン・オブ・シンク(CoT)微調整や、推論品質を直接評価しない粗い報酬を伴う強化学習(RL)に依存している。
その結果、生成した推論鎖はよく構造が整ったように見えるが、特定の音響的接地が欠如している。
本稿では,2つの中核的アイデアに基づくフレームワークであるAudio-DeepThinkerを提案する。
まず、論理経路アライメント、キーステップカバレッジ、分析深度を評価するLLM評価器と、参照推論チェーンとのセマンティックアライメントを強制する埋め込み類似度コンポーネントを組み合わせることで、生成された推論チェーンの品質を直接監視するハイブリッド推論類似性報酬を導入する。
第2に,事前のチェーン・オブ・シークレット能力を持たない命令調整モデルから,教師付き推論の微調整なしに,純粋なRL探索によって高品質なCoT推論が実現可能な2段階のカリキュラムを提案する。
第1ステージは基本的推論パターンを育むために基本的音響QAを訓練し、第2ステージはLLMのみの報奨で音響的に挑戦する境界ケースに移行し、より多様な推論を行う。
Audio-DeepThinkerはMMAR(74.0%)、MMAU-test-mini(78.5%)、MMSU(77.26%)で最先端の成績を収め、Interspeech 2026 Audio Reasoning Challenge(シングルモデルトラック)で1位を獲得した。
解釈可能性分析により、RLトレーニングは上層のMoEゲーティング機構を主に再認識し、推論トークンが上層のトランスフォーマー層で徐々に結晶化し、探索を通じてオーディオ推論がどのように現れるかの機械学的洞察を提供することが明らかとなった。
関連論文リスト
- The Interspeech 2026 Audio Reasoning Challenge: Evaluating Reasoning Process Quality for Audio Reasoning Models and Agents [83.79481911755481]
We organized the Audio Reasoning Challenge at Interspeech 2026。
この課題は、推論チェーンの事実とロジックを評価する新しいインスタンスレベルのプロトコルであるMMAR-Rubricsを導入した。
シングルモデルとエージェントのトラックが特徴で、18カ国から156チームが参加している。
論文 参考訳(メタデータ) (2026-02-15T16:38:09Z) - Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback [82.70507055599093]
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。
実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
論文 参考訳(メタデータ) (2026-01-27T00:55:14Z) - Step-Audio-R1 Technical Report [70.37077572409319]
本稿では,音声領域における推論能力の解放に成功した最初の音声推論モデルであるStep-Audio-R1を紹介する。
私たちのモデルは、Gemini 2.5 Proを抜いて、最先端のGemini 3 Proに匹敵するパフォーマンスを実現した、強力なオーディオ推論能力を示しています。
論文 参考訳(メタデータ) (2025-11-19T20:12:50Z) - AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning [3.949628618389608]
AURAは、Audio-Visual Large Language Models (AV-LLMs) とOmni-Modal Language Models (OLMs) のクロスモーダル推論能力を評価するためのベンチマークである。
AURAには、因果性、音色とピッチ、テンポとAV同期、未解決性、暗黙の気遣い、スキルプロファイリングといった6つの困難な認知領域に関する質問が含まれている。
本稿では,理性評価のための頑健なツールの欠如に対処する新しい計量AuraScoreを提案する。
論文 参考訳(メタデータ) (2025-08-10T20:06:42Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model [26.20569269005708]
LALM(Large Audio-Language Models)は、音声知覚や理解に関わるタスクにおいて顕著な性能を示す。
しかし、それらの推論能力は、複雑な現実世界の問題を解決するのに重要なものであり、まだ未解明のままである。
聴覚モダリティを越えた推論能力を高めるため, LALMへのCoT推論の統合を初めて実施する。
論文 参考訳(メタデータ) (2025-01-13T11:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。