論文の概要: FD-Bench: A Full-Duplex Benchmarking Pipeline Designed for Full Duplex Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2507.19040v1
- Date: Fri, 25 Jul 2025 07:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.873276
- Title: FD-Bench: A Full-Duplex Benchmarking Pipeline Designed for Full Duplex Spoken Dialogue Systems
- Title(参考訳): FD-Bench:全二重音声対話システム用に設計された全二重ベンチマークパイプライン
- Authors: Yizhou Peng, Yi-Wen Chao, Dianwen Ng, Yukun Ma, Chongjia Ni, Bin Ma, Eng Siong Chng,
- Abstract要約: FDシーンの既存のベンチマーク、例えばモデルパフォーマンスの評価にはFDシーンのメトリクスが欠けている。
本稿では, FDSDSのユーザ割り込み処理能力, 遅延管理能力, 新たなメトリクスを用いた挑戦シナリオにおける堅牢性の維持能力を評価する。
提案手法を,40時間以上の音声を用いたオープンソースのFDSDS(Moshi, Freeze-omni, VITA-1.5)に適用した。
- 参考スコア(独自算出の注目度): 25.6510200528785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full-duplex spoken dialogue systems (FDSDS) enable more natural human-machine interactions by allowing real-time user interruptions and backchanneling, compared to traditional SDS that rely on turn-taking. However, existing benchmarks lack metrics for FD scenes, e.g., evaluating model performance during user interruptions. In this paper, we present a comprehensive FD benchmarking pipeline utilizing LLMs, TTS, and ASR to address this gap. It assesses FDSDS's ability to handle user interruptions, manage delays, and maintain robustness in challenging scenarios with diverse novel metrics. We applied our benchmark to three open-source FDSDS (Moshi, Freeze-omni, and VITA-1.5) using over 40 hours of generated speech, with 293 simulated conversations and 1,200 interruptions. The results show that all models continue to face challenges, such as failing to respond to user interruptions, under frequent disruptions and noisy conditions. Demonstrations, data, and code will be released.
- Abstract(参考訳): フル二重音声対話システム(FDSDS)は、ターンテイクに依存する従来のSDSと比較して、リアルタイムのユーザ割り込みやバックチャネル化を可能にして、より自然な人間と機械の対話を可能にする。
しかし、既存のベンチマークでは、ユーザ中断時のモデルパフォーマンスの評価など、FDシーンのメトリクスが不足している。
本稿では, LLM, TTS, ASRを利用した総合的なFDベンチマークパイプラインを提案する。
FDSDSがユーザ中断を処理し、遅延を管理し、さまざまな新しいメトリクスを持つ挑戦的なシナリオで堅牢性を維持する能力を評価する。
提案手法を,40時間以上の生成音声を用いて3つのオープンソースFDSDS(Moshi, Freeze-omni, VITA-1.5)に適用した。
その結果,ユーザの中断への対応に失敗したり,頻繁な中断や騒々しい状況下では,すべてのモデルが引き続き課題に直面していることが明らかとなった。
デモ、データ、コードがリリースされる。
関連論文リスト
- MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning [54.47710436807661]
MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
論文 参考訳(メタデータ) (2025-06-05T19:12:45Z) - SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation [17.56310064245171]
SALMON-N-omniは、トークン遷移バックボーンなしで動作する最初の単独のフルバイト音声LLMである。
LLMバックボーン内に新しい動的思考機構が備わっており、講演と聴取の間にモデルを学習することができる。
SALMON-N-Omniは、ターンテイキング、バックチャネルエコーキャンセル、コンテキスト依存バージェインなど、複雑な会話シナリオで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-05-17T08:13:59Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models [16.920823078873095]
仮想アシスタント(VA)とのフォローアップ会話により、ユーザはキーワードを使って繰り返し呼び出すことなく、VAとシームレスに対話できる。
本稿では,従来の音声文脈とASRの不確実性との連成モデルにより,この手法が大きな利益をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-28T19:43:43Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic
Echo Cancellation, Noise Suppression and Dereverberation [12.734839065028547]
本稿では、残差畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づく、DeepVQEと呼ばれるリアルタイムのクロスアテンションディープモデルを提案する。
モデルの各コンポーネントのコントリビューションを分析して、全体的なパフォーマンスを実現する。
ICASSP 2023 Acoustic Echo Challenge とICASSP 2023 Deep Noise Suppression Challenge テストセットの非個人化トラックにおけるDeepVQEの最先端性能は、単一のモデルが優れたパフォーマンスで複数のタスクを処理可能であることを示している。
論文 参考訳(メタデータ) (2023-06-05T18:37:05Z) - Diffusion Recommender Model [85.9640416600725]
そこで我々は,DiffRecと呼ばれる新しい拡散レコメンダモデルを提案し,その生成過程を認知的に学習する。
ユーザインタラクションにおけるパーソナライズされた情報を維持するため、DiffRecは追加のノイズを低減し、画像合成のような純粋なノイズに対するユーザのインタラクションを損なうことを避ける。
論文 参考訳(メタデータ) (2023-04-11T04:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。