論文の概要: Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency
- arxiv url: http://arxiv.org/abs/2604.04847v1
- Date: Mon, 06 Apr 2026 16:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.291489
- Title: Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency
- Title(参考訳): Full-Duplex-Bench-v3:実世界拡散下でのフルDuplex音声エージェントのベンチマークツール
- Authors: Guan-Ting Lin, Chen Chen, Zhehuai Chen, Hung-yi Lee,
- Abstract要約: FDB-v3 (Full-Duplex-Bench-v3) は、自然言語条件下での音声モデルの評価と多段階ツールの使用のためのベンチマークである。
以前の作業とは異なり、データセットは5つのディスフルカテゴリにアノテートされた実際の人間のオーディオで構成されており、4つのタスクドメインにチェーンされたAPI呼び出しを必要とするシナリオとペアリングされています。
GPT-Realtime、Gemini Live 2.5、Gemini Live 3.1、Grok、Ultravox v0.7、従来のカスケードパイプライン(Whisper$rightarrow$rightarrow$TTS)の6つのモデル構成を精度、レイテンシ、ターンで評価した。
- 参考スコア(独自算出の注目度): 61.68376148916503
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Full-Duplex-Bench-v3 (FDB-v3), a benchmark for evaluating spoken language models under naturalistic speech conditions and multi-step tool use. Unlike prior work, our dataset consists entirely of real human audio annotated for five disfluency categories, paired with scenarios requiring chained API calls across four task domains. We evaluate six model configurations -- GPT-Realtime, Gemini Live 2.5, Gemini Live 3.1, Grok, Ultravox v0.7, and a traditional Cascaded pipeline (Whisper$\rightarrow$GPT-4o$\rightarrow$TTS) -- across accuracy, latency, and turn-taking dimensions. GPT-Realtime leads on Pass@1 (0.600) and interruption avoidance (13.5\%); Gemini Live 3.1 achieves the fastest latency (4.25~s) but the lowest turn-take rate (78.0\%); and the Cascaded baseline, despite a perfect turn-take rate, incurs the highest latency (10.12~s). Across all systems, self-correction handling and multi-step reasoning under hard scenarios remain the most consistent failure modes.
- Abstract(参考訳): FDB-v3 (Full-Duplex-Bench-v3) は、自然言語条件下での音声モデルの評価と多段階ツールの使用のためのベンチマークである。
以前の作業とは異なり、データセットは5つのディスフルカテゴリにアノテートされた実際の人間のオーディオで構成されており、4つのタスクドメインにチェーンされたAPI呼び出しを必要とするシナリオとペアリングされています。
GPT-Realtime、Gemini Live 2.5、Gemini Live 3.1、Grok、Ultravox v0.7、および従来のカスケードパイプライン(Whisper$\rightarrow$GPT-4o$\rightarrow$TTS)の6つのモデル構成を精度、レイテンシ、ターンテイクディメンションにわたって評価した。
GPT-RealtimeはPass@1 (0.600) と割り込み回避 (13.5\%)、Gemini Live 3.1は最速のレイテンシ (4.25~s) を達成するが、最も低いターンテイクレート (78.0\%)、そしてカスケードベースラインは完全なターンテイクレートにもかかわらず、最高レイテンシ (10.12~s) を発生させる。
すべてのシステムにおいて、ハードシナリオ下での自己補正処理とマルチステップ推論は、最も一貫性のある障害モードのままである。
関連論文リスト
- How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks [3.099103925863002]
AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について検討する。
我々は,Llama-3.2-1B,Granite-1B,Qwen2.5-3Bなどの中規模アーキテクチャを含む135M(SmolLM2-135M)から7Bパラメータ(Qwen2.5-7B)までのモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T18:19:49Z) - Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters [169.7981969517903]
Step 3.5 Flashは、フロンティアレベルのエージェントインテリジェンスと計算効率を橋渡しする。
エージェントを構築する上で最も重要なもの、すなわち、シャープな推論と高速で信頼性の高い実行に重点を置いています。
論文 参考訳(メタデータ) (2026-02-11T07:53:51Z) - Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - Extreme Model Compression for Edge Vision-Language Models: Sparse Temporal Token Fusion and Adaptive Neural Compression [0.0]
2つの適応圧縮技術は、アルゴリズムの革新とハードウェア対応の最適化を統合するために提案されている。
イベントベースの視覚タスクでは、STTFは平均トークン数を84%削減する。
ANCは低モーションシーンでFLOPを最大90%カットする。
論文 参考訳(メタデータ) (2025-11-23T15:43:00Z) - Efficient Hate Speech Detection: A Three-Layer LoRA-Tuned BERTweet Framework [0.0]
本稿では,計算効率のよいヘイトスピーチ検出システムを開発する上での課題について述べる。
ルールベースの事前フィルタリングとパラメータ効率の高いLoRA調整BERTweetモデルを組み合わせた新しい3層フレームワークを提案する。
我々の手法はSafePhiのような最先端の大規模言語モデルの性能の94%を達成している。
論文 参考訳(メタデータ) (2025-11-08T15:47:18Z) - AMAuT: A Flexible and Efficient Multiview Audio Transformer Framework Trained from Scratch [0.3728263002609659]
本稿では,AMAuT(Augmentation-driven Multiview Audio Transformer)を紹介する。
AMAuTは任意のサンプルレートとオーディオ長をサポートしながら、事前訓練された重量への依存を取り除く。
AudioMNIST、SpeechCommands V1 & V2、VocalSound、CochlSceneの5つの公開ベンチマークの実験では、AMAuTが99.8%のアキュラシーを達成したことが示されている。
論文 参考訳(メタデータ) (2025-10-22T08:41:59Z) - HELENA: High-Efficiency Learning-based channel Estimation using dual Neural Attention [0.0]
HELENAは、軽量な畳み込みバックボーンと2つの効率的な注意機構を組み合わせた、コンパクトなディープラーニングモデルである。
HELENAは推論時間を45.0%削減する(0.175,ms対0.318,ms)
論文 参考訳(メタデータ) (2025-06-16T12:21:27Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。
マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。
第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-01-26T02:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。