論文の概要: When Scaling Fails: Mitigating Audio Perception Decay of LALMs via Multi-Step Perception-Aware Reasoning
- arxiv url: http://arxiv.org/abs/2603.02266v1
- Date: Sat, 28 Feb 2026 12:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.482045
- Title: When Scaling Fails: Mitigating Audio Perception Decay of LALMs via Multi-Step Perception-Aware Reasoning
- Title(参考訳): スケール障害:マルチステップ知覚認識推論によるLALMの聴覚知覚低下の軽減
- Authors: Ruixiang Mao, Xiangnan Ma, Dan Chen, Ziming Zhu, Yuan Ge, Aokai Hao, Haishu Zhao, Yifu Huo, Qing Yang, Kaiyan Chang, Xiaoqian Liu, Chenglong Wang, Qiaozhi He, Tong Xiao, Jingbo Zhu,
- Abstract要約: 構造化推論軌道のポストトレーニングモデルは、直接応答のポストトレーニングと比較して、限界あるいは負の利得をもたらす。
MPAR$2$は、動的知覚的推論を奨励し、複雑な質問を知覚に富んだサブプロブレムに分解するパラダイムである。
- 参考スコア(独自算出の注目度): 49.28390630057018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-Time Scaling has shown notable efficacy in addressing complex problems through scaling inference compute. However, within Large Audio-Language Models (LALMs), an unintuitive phenomenon exists: post-training models for structured reasoning trajectories results in marginal or even negative gains compared to post-training for direct answering. To investigate it, we introduce CAFE, an evaluation framework designed to precisely quantify audio reasoning errors. Evaluation results reveal LALMs struggle with perception during reasoning and encounter a critical bottleneck: reasoning performance suffers from audio perception decay as reasoning length extends. To address it, we propose MPAR$^2$, a paradigm that encourages dynamic perceptual reasoning and decomposes complex questions into perception-rich sub-problems. Leveraging reinforcement learning, MPAR$^2$ improves perception performance on CAFE from 31.74% to 63.51% and effectively mitigates perception decay, concurrently enhancing reasoning capabilities to achieve a significant 74.59% accuracy on the MMAU benchmark. Further analysis demonstrates that MPAR$^2$ reinforces LALMs to attend to audio input and dynamically adapts reasoning budget to match task complexity.
- Abstract(参考訳): テスト時間スケーリングは、推論計算のスケーリングによる複雑な問題に対処する上で、顕著な効果を示している。
しかし、Large Audio-Language Models (LALMs) では、直感的な現象が存在する: 構造化推論軌道の訓練後モデルでは、直接応答のトレーニング後モデルと比較して、限界あるいは負の利得が得られる。
そこで本研究では,音声推論誤差の定量化を目的とした評価フレームワークであるCAFEを紹介する。
評価結果から、LALMは、推論中に知覚に苦しむことや、推論の長さが長くなるにつれて、音響知覚の劣化に苦しむことなど、重要なボトルネックに直面していることが明らかとなった。
そこで本研究では,動的知覚推論を促進するパラダイムであるMPAR$^2$を提案し,複雑な問題を認識に富んだサブプロブレムに分解する。
強化学習を活用して、MPAR$^2$はCAFEの知覚性能を31.74%から63.51%に改善し、知覚減衰を効果的に軽減し、MMAUベンチマークで74.59%の精度を達成するために推論能力を同時に強化する。
さらなる分析により、MPAR$^2$はLALMを補強して音声入力に参画し、タスクの複雑さに合わせて推論予算を動的に適応させることを示した。
関連論文リスト
- Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - SEE: Signal Embedding Energy for Quantifying Noise Interference in Large Audio Language Models [49.313324100819955]
信号埋め込みエネルギー (Signal Embedding Energy, SEE) は、LALM入力に対する雑音強度の影響を定量化する手法である。
SEEはLALM性能と強い相関を示し,0.98。
本稿では,LALMにおけるノイズ定量化のための新しい指標を提案し,実環境におけるロバスト性向上のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2026-01-12T08:57:55Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards [24.40159537923851]
音声大言語モデルにおけるロバストでスケーラブルな推論法を開発するための原理的手法を開発した。
MMAU 2.5 Pro と GPT-4o Audio をほぼ上回り、MMSU の推論タスクにおけるほぼ人間レベルの性能を向上する。
論文 参考訳(メタデータ) (2025-10-23T06:18:10Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs [8.918587474371321]
大規模音声言語モデル(LALM)は急速に進歩しているが、評価は依然として難しい。
LALMの効率的かつ包括的な評価フレームワークであるAU-Harnessを紹介する。
本システムでは,バッチ処理と並列実行を最適化することにより,既存のツールキットよりも最大127%の高速化を実現している。
論文 参考訳(メタデータ) (2025-09-09T15:30:40Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model [26.20569269005708]
LALM(Large Audio-Language Models)は、音声知覚や理解に関わるタスクにおいて顕著な性能を示す。
しかし、それらの推論能力は、複雑な現実世界の問題を解決するのに重要なものであり、まだ未解明のままである。
聴覚モダリティを越えた推論能力を高めるため, LALMへのCoT推論の統合を初めて実施する。
論文 参考訳(メタデータ) (2025-01-13T11:54:40Z) - On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2024-02-12T23:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。