Fugu-MT 論文翻訳(概要): Audio2Tool: Speak, Call, Act -- A Dataset for Benchmarking Speech Tool Use

論文の概要: Audio2Tool: Speak, Call, Act -- A Dataset for Benchmarking Speech Tool Use

arxiv url: http://arxiv.org/abs/2604.22821v2
Date: Tue, 28 Apr 2026 17:29:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 02:32:14.207094
Title: Audio2Tool: Speak, Call, Act -- A Dataset for Benchmarking Speech Tool Use
Title（参考訳）: Audio2Tool: Speak, Call, Act -- 音声ツールのベンチマーク用データセット
Authors: Ramit Pahwa, Apoorva Beedu, Parivesh Priye, Rutu Gandhi, Saloni Takawale, Aruna Baijal, Zengli Yang,
Abstract要約: 本稿では,スマートカー,スマートホーム,ウェアラブルの3つの主要領域にわたるSpeechLMのツールコール機能を評価するためのAudio2Toolを紹介する。我々のベンチマークでは、単純な直接コマンドから複雑なマルチインテントやニードル・イン・ア・ヘイスタック抽出から、独立した障害モードまで、多層的な複雑性階層が特徴的である。現状のSpeechLMとASR-LLMパイプラインの評価は、単純なコマンドでは高い性能を示すが、構成的および音響的課題では著しく低下する。
参考スコア（独自算出の注目度）: 1.851890212523342
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Voice assistants increasingly rely on Speech Language Models (SpeechLMs) to interpret spoken queries and execute complex tasks, yet existing benchmarks lack domain breadth, acoustic diversity, and compositional reasoning complexity to evaluate tool-calling performance. We introduce Audio2Tool, a large-scale dataset comprising approximately 30,000 queries designed to assess tool-calling capabilities of SpeechLMs across three primary domains: Smart Car, Smart Home, and Wearables. Our benchmark features a multi-tier complexity hierarchy, ranging from simple direct commands to complex multi-intent and needle-in-a-haystack extraction to isolate distinct failure modes. To ensure realism, we employ zero-shot voice cloning text-to-speech synthesis and diverse noise profiles to simulate in-the-wild conditions. Evaluations of state-of-the-art SpeechLMs and ASR-LLM pipelines show strong performance on simple commands but significant degradation under compositional and acoustic challenges. Code and dataset are publicly available on the project page: https://audio2tool.github.io/.
Abstract（参考訳）: 音声アシスタントは、音声クエリを解釈し、複雑なタスクを実行するために、音声言語モデル(SpeechLMs)にますます依存しているが、既存のベンチマークでは、ツール呼び出しのパフォーマンスを評価するためのドメイン幅、音響的多様性、構成的推論の複雑さが欠如している。我々は,スマートカー,スマートホーム,ウェアラブルの3つの主要領域にわたるSpeechLMのツールコール能力を評価するために,約30,000のクエリからなる大規模データセットであるAudio2Toolを紹介した。我々のベンチマークでは、単純な直接コマンドから複雑なマルチインテントやニードル・イン・ア・ヘイスタック抽出から、独立した障害モードまで、多層的な複雑性階層が特徴的である。リアリズムを確実にするために,ゼロショット音声クローニング音声合成と多様な雑音プロファイルを用いて,音環境をシミュレートする。現状のSpeechLMとASR-LLMパイプラインの評価は、単純なコマンドでは高い性能を示すが、構成的および音響的課題では著しく低下する。コードとデータセットはプロジェクトのページで公開されている。

論文の概要: Audio2Tool: Speak, Call, Act -- A Dataset for Benchmarking Speech Tool Use

関連論文リスト