論文の概要: AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning
- arxiv url: http://arxiv.org/abs/2602.10439v1
- Date: Wed, 11 Feb 2026 02:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.395622
- Title: AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning
- Title(参考訳): AudioRouter: RLベースのデュアル推論によるデータ効率の良い音声理解
- Authors: Liyang Chen, Hongkai Chen, Yujun Cai, Sifan Li, Qingwen Ye, Yiwei Wang,
- Abstract要約: LALM(Large Audio Language Models)は、音声理解と推論において強力な能力を示す。
本研究では、LALMが外部オーディオツールの使用方法とタイミングを学習することで、音声理解を改善するための強化学習フレームワークであるAudioを提案する。
- 参考スコア(独自算出の注目度): 29.443084496227026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio Language Models (LALMs) have demonstrated strong capabilities in audio understanding and reasoning. However, their performance on fine grained auditory perception remains unreliable, and existing approaches largely rely on data intensive training to internalize perceptual abilities. We propose AudioRouter, a reinforcement learning framework that enables LALMs to improve audio understanding by learning when and how to use external audio tools. Rather than tightly coupling tool usage with audio reasoning, AudioRouter formulates tool use as an explicit decision making problem and optimizes a lightweight routing policy while keeping the underlying reasoning model frozen. Experimental results show that AudioRouter achieves substantial improvements on standard audio understanding benchmarks while requiring up to 600x less training data to learn tool usage compared with conventional training paradigms. These findings suggest that learning effective tool usage offers a data efficient and scalable alternative to internalizing perceptual abilities in LALMs.
- Abstract(参考訳): LALM(Large Audio Language Models)は、音声理解と推論において強力な能力を示す。
しかし、その微粒な聴覚知覚における性能は信頼できないままであり、既存のアプローチは知覚能力の内部化のためのデータ集中トレーニングに大きく依存している。
LALMが外部オーディオツールをいつ、どのように使うかを学ぶことによって、音声理解を改善することができる強化学習フレームワークであるAudioRouterを提案する。
AudioRouterは、ツールの使用とオーディオ推論を密結合する代わりに、ツールの使用を明確な意思決定問題として定式化し、基礎となる推論モデルを凍結させながら、軽量なルーティングポリシーを最適化する。
実験結果から,AudioRouterは従来の学習パラダイムと比較して,最大600倍のトレーニングデータを必要とする一方で,標準オーディオ理解ベンチマークの大幅な改善を実現していることがわかった。
これらの結果から,学習効果的なツール使用法は,LALMにおける知覚能力の内在化に代わる,データ効率が高くスケーラブルな代替手段となることが示唆された。
関連論文リスト
- DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding [58.29124051111574]
一般音声理解のための実用的な拡散型LALMであるDIFFA-2を紹介する。
DIFFA-2は音声エンコーダをアップグレードし、デュアルセマンティックとアコースティックのアダプタを採用し、4段階のカリキュラムで訓練されている。
MMSU、MMAU、MMARの実験では、DIFFA-2はDIFFAよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-01-30T16:44:23Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - AKVSR: Audio Knowledge Empowered Visual Speech Recognition by
Compressing Audio Knowledge of a Pretrained Model [53.492751392755636]
本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(AKVSR)を提案する。
提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:38:38Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。