論文の概要: Audio2Tool: Speak, Call, Act -- A Dataset for Benchmarking Speech Tool Use
- arxiv url: http://arxiv.org/abs/2604.22821v2
- Date: Tue, 28 Apr 2026 17:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.207094
- Title: Audio2Tool: Speak, Call, Act -- A Dataset for Benchmarking Speech Tool Use
- Title(参考訳): Audio2Tool: Speak, Call, Act -- 音声ツールのベンチマーク用データセット
- Authors: Ramit Pahwa, Apoorva Beedu, Parivesh Priye, Rutu Gandhi, Saloni Takawale, Aruna Baijal, Zengli Yang,
- Abstract要約: 本稿では,スマートカー,スマートホーム,ウェアラブルの3つの主要領域にわたるSpeechLMのツールコール機能を評価するためのAudio2Toolを紹介する。
我々のベンチマークでは、単純な直接コマンドから複雑なマルチインテントやニードル・イン・ア・ヘイスタック抽出から、独立した障害モードまで、多層的な複雑性階層が特徴的である。
現状のSpeechLMとASR-LLMパイプラインの評価は、単純なコマンドでは高い性能を示すが、構成的および音響的課題では著しく低下する。
- 参考スコア(独自算出の注目度): 1.851890212523342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice assistants increasingly rely on Speech Language Models (SpeechLMs) to interpret spoken queries and execute complex tasks, yet existing benchmarks lack domain breadth, acoustic diversity, and compositional reasoning complexity to evaluate tool-calling performance. We introduce Audio2Tool, a large-scale dataset comprising approximately 30,000 queries designed to assess tool-calling capabilities of SpeechLMs across three primary domains: Smart Car, Smart Home, and Wearables. Our benchmark features a multi-tier complexity hierarchy, ranging from simple direct commands to complex multi-intent and needle-in-a-haystack extraction to isolate distinct failure modes. To ensure realism, we employ zero-shot voice cloning text-to-speech synthesis and diverse noise profiles to simulate in-the-wild conditions. Evaluations of state-of-the-art SpeechLMs and ASR-LLM pipelines show strong performance on simple commands but significant degradation under compositional and acoustic challenges. Code and dataset are publicly available on the project page: https://audio2tool.github.io/.
- Abstract(参考訳): 音声アシスタントは、音声クエリを解釈し、複雑なタスクを実行するために、音声言語モデル(SpeechLMs)にますます依存しているが、既存のベンチマークでは、ツール呼び出しのパフォーマンスを評価するためのドメイン幅、音響的多様性、構成的推論の複雑さが欠如している。
我々は,スマートカー,スマートホーム,ウェアラブルの3つの主要領域にわたるSpeechLMのツールコール能力を評価するために,約30,000のクエリからなる大規模データセットであるAudio2Toolを紹介した。
我々のベンチマークでは、単純な直接コマンドから複雑なマルチインテントやニードル・イン・ア・ヘイスタック抽出から、独立した障害モードまで、多層的な複雑性階層が特徴的である。
リアリズムを確実にするために,ゼロショット音声クローニング音声合成と多様な雑音プロファイルを用いて,音環境をシミュレートする。
現状のSpeechLMとASR-LLMパイプラインの評価は、単純なコマンドでは高い性能を示すが、構成的および音響的課題では著しく低下する。
コードとデータセットはプロジェクトのページで公開されている。
関連論文リスト
- ATIR: Towards Audio-Text Interleaved Contextual Retrieval [63.68521448682396]
本稿では,Audio-Text Interleaved contextual Retrieval (ATIR)タスクを導入する。
このベンチマークは、意味検索における既存の音声検索データセットの限界を実質的に解決する。
論文 参考訳(メタデータ) (2026-04-22T07:11:58Z) - VoiceAgentBench: Are Voice Assistants ready for agentic tasks? [5.639970295197759]
本稿では,現実的な音声エージェント設定におけるSpeechLMの評価ベンチマークであるVoiceAgentBenchを紹介する。
インドの文脈に根ざした5,500以上の合成音声クエリで構成されている。
ツール選択の正確性、構造的整合性、ツールの実行の正しさを測定する。
論文 参考訳(メタデータ) (2025-10-09T09:11:38Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。