論文の概要: Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.08039v2
- Date: Tue, 12 Aug 2025 07:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 12:16:51.431791
- Title: Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
- Title(参考訳): 音声シンカー:強化学習による時と方法の指導
- Authors: Shu Wu, Chenxing Li, Wenfu Wang, Hao Zhang, Hualei Wang, Meng Yu, Dong Yu,
- Abstract要約: 大規模音声言語モデル(LALM)の推論能力を高めるための強化学習フレームワークであるAudio-Thinkerを提案する。
提案手法は適応的思考精度報酬を導入し,タスクに基づいた推論戦略を動的に調整する。
実験の結果,Audio-Thinkerモデルは,様々なベンチマークタスクにおいて,既存の推論指向のLALMよりも優れていた。
- 参考スコア(独自算出の注目度): 41.255832127671205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in large language models, multimodal large language models, and large audio language models (LALMs) have significantly improved their reasoning capabilities through reinforcement learning with rule-based rewards. However, the explicit reasoning process has yet to show significant benefits for audio question answering, and effectively leveraging deep reasoning remains an open challenge, with LALMs still falling short of human-level auditory-language reasoning. To address these limitations, we propose Audio-Thinker, a reinforcement learning framework designed to enhance the reasoning capabilities of LALMs, with a focus on improving adaptability, consistency, and effectiveness. Our approach introduces an adaptive think accuracy reward, enabling the model to adjust its reasoning strategies based on task complexity dynamically. Furthermore, we incorporate an external reward model to evaluate the overall consistency and quality of the reasoning process, complemented by think-based rewards that help the model distinguish between valid and flawed reasoning paths during training. Experimental results demonstrate that our Audio-Thinker model outperforms existing reasoning-oriented LALMs across various benchmark tasks, exhibiting superior reasoning and generalization capabilities.
- Abstract(参考訳): 大規模言語モデル,マルチモーダル大規模言語モデル,大規模音声言語モデル(LALM)の最近の進歩は,規則に基づく報酬による強化学習を通じて,その推論能力を大幅に向上させた。
しかしながら、明示的な推論プロセスは、音声による質問応答には大きなメリットを示しておらず、深い推論を効果的に活用することは、まだオープンな課題であり、LALMは人間レベルの聴覚言語推論に不足している。
これらの制約に対処するために,LALMの推論能力の向上を目的とした強化学習フレームワークであるAudio-Thinkerを提案する。
提案手法は適応的思考精度の報酬を導入し,タスク複雑性に基づいた推論戦略を動的に調整する。
さらに、モデルがトレーニング中に有効かつ欠陥のある推論パスを区別するのに役立つ思考に基づく報酬によって補完される、推論プロセスの全体的な一貫性と品質を評価するために、外部報酬モデルを導入する。
実験の結果,Audio-Thinkerモデルは,様々なベンチマークタスクにおいて既存の推論指向のLALMよりも優れ,推論や一般化能力に優れていた。
関連論文リスト
- MeRF: Motivation-enhanced Reinforcement Finetuning for Large Reasoning Models [95.6332110724999]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模言語モデル(LLM)の強化学習を強化する直感的かつ効果的な手法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識して応答を改善するためのコンテキスト内モチベーションとして機能する。
Knights and Knaves(K&K)論理パズル推論ベンチマークに関する実証的な評価は、texttMeRFがベースラインよりもかなりの性能向上を達成することを示した。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - Advancing Reasoning in Large Language Models: Promising Methods and Approaches [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて著しく成功している。
複雑な推論スパンニング論理推論、数学的問題解決、コモンセンス推論、そして多段階推論を実行する能力は、人間の期待に届かない。
本調査は, LLMにおける推論向上技術に関する総合的なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-05T23:31:39Z) - Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model [26.20569269005708]
LALM(Large Audio-Language Models)は、音声知覚や理解に関わるタスクにおいて顕著な性能を示す。
しかし、それらの推論能力は、複雑な現実世界の問題を解決するのに重要なものであり、まだ未解明のままである。
聴覚モダリティを越えた推論能力を高めるため, LALMへのCoT推論の統合を初めて実施する。
論文 参考訳(メタデータ) (2025-01-13T11:54:40Z) - Unlocking Structured Thinking in Language Models with Cognitive Prompting [0.0]
大規模言語モデル(LLM)における問題解決を導く新しいアプローチとして認知的プロンプトを提案する。
本稿では,認知操作の決定論的シーケンス,自己適応型,ハイブリッド型という3つの変種を紹介する。
LLaMA, Gemma2, Qwenの各モデルの算術的推論ベンチマークGSM8Kにおける実験により、認知的プロンプトは標準的な質問応答に比べて性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-10-03T19:53:47Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。