論文の概要: Audio-Maestro: Enhancing Large Audio-Language Models with Tool-Augmented Reasoning
- arxiv url: http://arxiv.org/abs/2510.11454v1
- Date: Mon, 13 Oct 2025 14:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.960509
- Title: Audio-Maestro: Enhancing Large Audio-Language Models with Tool-Augmented Reasoning
- Title(参考訳): Audio-Maestro: ツール強化推論による大規模オーディオ言語モデルの強化
- Authors: Kuan-Yi Lee, Tsung-En Lin, Hung-Yi Lee,
- Abstract要約: ツール拡張オーディオ推論フレームワークであるAudio-Maestroを紹介する。
音声によるモデルは、外部ツールを自律的に呼び出し、タイムスタンプされた出力を推論プロセスに統合することができる。
実験により、Audio-Maestroは一般的な音声推論性能を一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in large multimodal models (LMMs) have shown strong capabilities in audio understanding. However, most systems rely solely on end-to-end reasoning, limiting interpretability and accuracy for tasks that require structured knowledge or specialized signal analysis. In this work, we present Audio-Maestro -- a tool-augmented audio reasoning framework that enables audio-language models to autonomously call external tools and integrate their timestamped outputs into the reasoning process. This design allows the model to analyze, transform, and interpret audio signals through specialized tools rather than relying solely on end-to-end inference. Experiments show that Audio-Maestro consistently improves general audio reasoning performance: Gemini-2.5-flash's average accuracy on MMAU-Test rises from 67.4% to 72.1%, DeSTA-2.5 from 58.3% to 62.8%, and GPT-4o from 60.8% to 63.9%. To our knowledge, Audio-Maestro is the first framework to integrate structured tool output into the large audio language model reasoning process.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、音声理解において強力な能力を示している。
しかし、ほとんどのシステムはエンドツーエンドの推論にのみ依存しており、構造化知識や特殊な信号分析を必要とするタスクの解釈可能性や精度を制限している。
本稿では,Audio-Maestroについて紹介する。Audio-Maestroはツール拡張されたオーディオ推論フレームワークで,音声モデルが外部ツールを自律的に呼び出し,タイムスタンプされた出力を推論プロセスに統合することを可能にする。
この設計により、エンド・ツー・エンドの推論のみに頼るのではなく、特殊なツールを通じて音声信号を分析、変換、解釈することができる。
実験によると、Audio-Maestroは一般的なオーディオ推論性能を一貫して改善している: Gemini-2.5-flashのMMAU-Testの平均精度は67.4%から72.1%に上昇し、DeSTA-2.5は58.3%から62.8%に、GPT-4oは60.8%から63.9%に上昇した。
私たちの知る限り、Audio-Maestroは構造化ツール出力を大規模オーディオ言語モデル推論プロセスに統合する最初のフレームワークです。
関連論文リスト
- AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - Thinking with Sound: Audio Chain-of-Thought Enables Multimodal Reasoning in Large Audio-Language Models [49.097347801692166]
本稿では,Large Audio-Language ModelsとAudio CoTを併用したThinking-with-Sound(TwS)を提案する。
TwSにより、モデルは音声信号で積極的に考えることができ、数値解析やマルチモーダル推論によるデジタル操作を行うことができる。
実験によると、最先端のLALMはMELD-Hard1kで劇的に性能が低下しており、クリーンオーディオに比べて精度が50%以上低下している。
論文 参考訳(メタデータ) (2025-09-26T01:27:59Z) - SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models [43.46082014842855]
複雑な推論をサポートするために特別にキュレートされた6,446個のオーディオテキスト注釈付きサンプルのデータセットであるSoundMindを紹介する。
次に,規則に基づく強化学習(RL)アルゴリズムであるSoundMind-RLを提案する。
この研究は、高品質で推論にフォーカスしたデータセットと特殊なRL技術を組み合わせる利点を強調し、言語モデルにおける聴覚インテリジェンスの向上に貢献している。
論文 参考訳(メタデータ) (2025-06-15T18:26:08Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。