論文の概要: AuTAgent: A Reinforcement Learning Framework for Tool-Augmented Audio Reasoning
- arxiv url: http://arxiv.org/abs/2602.13685v1
- Date: Sat, 14 Feb 2026 09:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.338864
- Title: AuTAgent: A Reinforcement Learning Framework for Tool-Augmented Audio Reasoning
- Title(参考訳): AuTAgent: ツール強化オーディオ推論のための強化学習フレームワーク
- Authors: Siqian Tong, Xuan Li, Yiwei Wang, Baolong Bi, Yujun Cai, Shenghua Liu, Yuchen He, Chengpeng Hao,
- Abstract要約: 大規模音声言語モデル(LALM)は知覚に優れるが、正確な音響測定を必要とする複雑な推論に苦労する。
我々は、いつ、どのツールを呼び出すかを学習する強化学習フレームワークであるAuTAgentを提案する。
- 参考スコア(独自算出の注目度): 36.67330306977483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio Language Models (LALMs) excel at perception but struggle with complex reasoning requiring precise acoustic measurements. While external tools can extract fine-grained features like exact tempo or pitch, effective integration remains challenging: naively using all tools causes information overload, while prompt-based selection fails to assess context-dependent utility. To address this, we propose AuTAgent (Audio Tool Agent), a reinforcement learning framework that learns when and which tools to invoke. By employing a sparse-feedback training strategy with a novel Differential Reward mechanism, the agent learns to filter out irrelevant tools and invokes external assistance only when it yields a net performance gain over the base model. Experimental results confirm that AuTAgent complements the representation bottleneck of LALMs by providing verifiable acoustic evidence. It improves accuracy by 4.20% / 6.20% and 9.80% / 8.00% for open-source and closed-source backbones on the MMAU Test-mini and the MMAR benchmarks, respectively. In addition, further experiments demonstrate exceptional transferability. We highlight the complementary role of external tools in augmenting audio model reasoning.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は知覚に優れるが、正確な音響測定を必要とする複雑な推論に苦労する。
外部ツールは正確なテンポやピッチのようなきめ細かい機能を抽出できるが、効果的な統合は難しい。
そこで我々はAuTAgent (Audio Tool Agent) を提案する。Audio Tool Agentは、いつ、どのツールを呼び出すかを学ぶ強化学習フレームワークである。
新たな微分リワード機構を備えたスパースフィードバックトレーニング戦略を採用することにより、エージェントは、無関係なツールをフィルタリングすることを学び、ベースモデルよりも純パフォーマンスゲインが得られる場合にのみ外部支援を起動する。
実験結果から、AuTAgentは検証可能な音響的証拠を提供することで、LALMの表現ボトルネックを補完することを確認した。
MMAU Test-miniとMMARベンチマークでは、それぞれオープンソースとクローズドソースのバックボーンの精度が4.20%/6.20%、9.80%/8.00%向上している。
さらに、さらなる実験は例外的な転移性を示す。
音声モデル推論の強化における外部ツールの補完的役割を強調した。
関連論文リスト
- AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning [29.443084496227026]
LALM(Large Audio Language Models)は、音声理解と推論において強力な能力を示す。
本研究では、LALMが外部オーディオツールの使用方法とタイミングを学習することで、音声理解を改善するための強化学習フレームワークであるAudioを提案する。
論文 参考訳(メタデータ) (2026-02-11T02:30:48Z) - Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning [16.12114923351562]
エージェントをツールユーザからツールクリエータに変換する,トレーニング不要のフレームワークを提案する。
このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。
ツールライブラリをメンテナンスするためのメモリ統合機構も導入する。
論文 参考訳(メタデータ) (2026-02-02T11:37:45Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning [17.086082843274003]
大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する
Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。
ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
論文 参考訳(メタデータ) (2025-07-29T14:12:28Z) - Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - Can We Trust Machine Learning? The Reliability of Features from Open-Source Speech Analysis Tools for Speech Modeling [0.0]
機械学習に基づく行動モデルは、オーディオ視覚記録から抽出された特徴に依存している。
機械学習ツールは、振る舞いに関連する情報をキャプチャする際の信頼性を保証するための検証を欠くことが多い。
自閉症児を対象に,広範に使用されている2つの音声分析ツールOpenSMILEとPratから抽出した音声特徴を評価し,その信頼性を評価する。
論文 参考訳(メタデータ) (2025-06-02T18:55:53Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。