論文の概要: From Text to Voice: A Reproducible and Verifiable Framework for Evaluating Tool Calling LLM Agents
- arxiv url: http://arxiv.org/abs/2605.15104v2
- Date: Wed, 20 May 2026 10:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.194224
- Title: From Text to Voice: A Reproducible and Verifiable Framework for Evaluating Tool Calling LLM Agents
- Title(参考訳): テキストから音声へ: LLMエージェントと呼ばれるツール評価のための再現性と検証可能なフレームワーク
- Authors: Md Tahmid Rahman Laskar, Xue-Yong Fu, Seyyed Saeed Sarfjoo, Quinten McNamara, Jonas Robertson, Shashi Bhushan TN,
- Abstract要約: 検証されたテキストのベンチマークを、制御された音声ベースのツールコール評価に変換できるかどうかを検討する。
我々のデータセットに依存しないフレームワークは、テキスト音声、話者変動、環境騒音を利用してペア化されたテキストオーディオインスタンスを作成する。
- 参考スコア(独自算出の注目度): 8.902317289902514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice agents increasingly require reliable tool use from speech, whereas prominent tool-calling benchmarks remain text-based. We study whether verified text benchmarks can be converted into controlled audio-based tool calling evaluations without re-annotating the tool schema and gold labels. Our dataset-agnostic framework uses text-to-speech, speaker variation, and environmental noise to create paired text-audio instances while preserving the original dataset annotations. Based on extensive evaluation of 7 omni-modal models on audio-converted versions of Confetti and When2Call, our framework demonstrates that the performance is strongly model- and task-dependent: Gemini-3.1-Flash-Live obtains the highest Confetti score (70.4), whereas GPT-Realtime-1.5 performs best on When2Call (71.9). On Confetti, the text-to-voice gap ranges from 1.8 points for Qwen3-Omni to 4.8 points for GPT-Realtime-1.5. A targeted analysis of failure cases demonstrates that degradations most often reflect misunderstandings of argument values in the speech. Considering real-world deployment scenarios, we further report text-only results, an ambiguity-based reformulation stress test, and a reference-free LLM-as-judge protocol validated against human preferences. Notably, we find that open-source Qwen3 judges with at least 8B parameters exceed 80% agreement with proprietary judges, supporting privacy-preserving evaluation. Overall, our framework provides a verifiable and reproducible first-stage diagnostic that complements purpose-built audio corpora.
- Abstract(参考訳): ボイスエージェントは音声からの信頼できるツールの使用をますます要求するが、顕著なツールコールベンチマークはテキストベースのままである。
検証されたテキストのベンチマークを、ツールスキーマやゴールドラベルを再注釈せずに、制御された音声ベースのツールコール評価に変換できるかどうかを検討する。
我々のデータセットに依存しないフレームワークは、テキスト音声、話者変動、環境騒音を利用して、元のデータセットアノテーションを保存しながらペア化されたテキストオーディオインスタンスを作成します。
Gemini-3.1-Flash-Liveは最も高いConfettiスコア(70.4)を得るのに対し、GPT-Realtime-1.5はWhen2Call(71.9)で最高である。
Confettiでは、Qwen3-Omniが1.8点、GPT-Realtime-1.5が4.8点である。
故障事例を対象とした分析により、劣化は音声における議論値の誤解を最もよく反映していることが示された。
実世界の展開シナリオを考慮すると、テキストのみの結果、曖昧性に基づく修正ストレステスト、および人間の嗜好に反する基準のないLCM-as-judgeプロトコルをさらに報告する。
特に,少なくとも8Bパラメータを持つオープンソースのQwen3審査員が,プロプライエタリな審査員との80%の合意を超え,プライバシー保護評価を支持している。
全体として、我々のフレームワークは、目的の音響コーパスを補完する検証可能かつ再現可能な第1段階の診断を提供する。
関連論文リスト
- All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation [45.45465533352999]
大規模オーディオ言語モデルは、音声と音声のベンチマークで一貫したパフォーマンス向上を示すが、高いスコアは真の聴覚知覚を反映していないかもしれない。
本稿では,テキストと一般知識のみから応答可能性を測定するテキスト先行法と,音響信号への実際の依存度を評価するオーディオ依存法という,2つの軸を用いた診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-27T12:25:18Z) - BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios [4.853153612241331]
既存のベンチマークは、ほとんど見過ごせないシナリオであり、オーディオと視覚のアライメントを計測しない。
本稿では,BRITEについて紹介する。BRITEは難解なプロンプトを統一する最初のフレームワークで,音声・視覚的一貫性のきめ細かい評価,QAに基づく解釈可能な評価を行う。
論文 参考訳(メタデータ) (2026-04-24T21:34:52Z) - Evaluating AI Meeting Summaries with a Reusable Cross-Domain Pipeline [2.4832413743954618]
本稿では,AI会議要約をインスタンス化した,生成型AIアプリケーションのための再利用可能な評価パイプラインを提案する。
このシステムは、ソースの取り込み、構造化された参照構成、候補生成、構造化されたスコアリング、レポートの5段階にわたるタスク固有のセマンティクスから再利用可能なオーケストレーションを分離する。
オフラインループをCity_council, private_data, whitehouse_press_briefingsにまたがる114のミーティングの型付きデータセットでベンチマークする。
論文 参考訳(メタデータ) (2026-04-23T07:02:11Z) - Speech-DRAME: A Framework for Human-Aligned Benchmarks in Speech Role-Play [68.54773980519457]
Speech-DRAMEは3つのレベルで貢献する統合フレームワークである。
音声ロールプレイを評価するための、最初の包括的で再現可能な基盤を提供する。
論文 参考訳(メタデータ) (2025-11-03T06:12:40Z) - TextualVerifier: Verify TextGrad Step-by-Step [0.25489046505746704]
TextualVerifierは、連鎖分解、変種生成、多数決、コンセンサスアグリゲーションを実装している。
損失関数と最適化結果の検証段階の両方で、非侵襲的にTextGradと統合する。
論文 参考訳(メタデータ) (2025-10-29T13:53:42Z) - HALT-RAG: A Task-Adaptable Framework for Hallucination Detection with Calibrated NLI Ensembles and Abstention [0.0]
HALT-RAGは、Retrieval-Augmented Generationパイプラインの出力における幻覚を特定するために設計されたポストホック検証システムである。
我々のフレキシブルでタスク適応性のあるフレームワークは、2つのフリーズ・オフ・ザ・シェルフ自然言語推論(NLI)モデルと軽量語彙信号のアンサンブルから導かれる普遍的な特徴セットを使用する。
HALT-RAGは軽量・タスク適応型・高精度制約型決定ポリシーと組み合わせることで,要約,QA,対話における強いOOF F1スコア0.7756,0.9786,0.7391を達成する。
論文 参考訳(メタデータ) (2025-09-09T07:58:46Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。