論文の概要: EchoChain: A Full-Duplex Benchmark for State-Update Reasoning Under Interruptions
- arxiv url: http://arxiv.org/abs/2604.16456v1
- Date: Wed, 08 Apr 2026 00:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.01492
- Title: EchoChain: A Full-Duplex Benchmark for State-Update Reasoning Under Interruptions
- Title(参考訳): EchoChain: 中断中の状態更新推論のためのフル二重ベンチマーク
- Authors: Smit Nautambhai Modi, Gandharv Mahajan, Marc Wetter, Randall Welles,
- Abstract要約: 音声の中間中断下での完全中断後の推論を評価するための制御されたベンチマークとしてEchoChainを評価した。
このベンチマークは、シナリオ駆動の会話を生成し、アシスタント音声のオンセットに対して標準化された点で割り込みを注入する。
合格率は50%を超えず、中世代の州改正で大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time voice assistants must revise task state when users interrupt mid-response, but existing spoken-dialog benchmarks largely evaluate turn-based interaction and miss this failure mode. We introduce EchoChain, a controlled benchmark for evaluating full-duplex state-update reasoning under mid-speech interruptions. EchoChain identifies three recurring failure patterns in post-interruption continuations: contextual inertia, interruption amnesia, and objective displacement. The benchmark generates scenario-driven conversations and injects interruptions at a standardized point relative to assistant speech onset, enabling controlled cross-model comparison. In a paired half-duplex control, total failures drop by 40.2% relative to interrupted runs, indicating that many errors are driven by state-update reasoning under interruption rather than task difficulty alone. Across evaluated real-time voice models, no system exceeds a 50% pass rate, showing substantial room for improvement in mid-generation state revision. EchoChain provides a reproducible benchmark for diagnosing state-update reasoning failures in full-duplex voice interaction.
- Abstract(参考訳): リアルタイム音声アシスタントは、ユーザーがミッドレスポンスを中断した場合にタスク状態を変更する必要があるが、既存の音声ダイアログベンチマークはターンベースのインタラクションを評価し、この障害モードを見逃す。
音声中の中断下での完全二重状態更新推論を評価するための制御ベンチマークであるEchoChainを紹介する。
EchoChainは、中断後の継続で繰り返される3つの障害パターンを識別する。
このベンチマークは、シナリオ駆動の会話を生成し、アシスタント音声のオンセットに対して標準化された点で割り込みを注入し、制御されたクロスモデル比較を可能にする。
2組の半二重制御では、総故障は中断された実行に対して40.2%減少し、多くのエラーはタスクの難易度だけでなく中断中の状態更新推論によって引き起こされることを示している。
評価されたリアルタイム音声モデル全体では、システムは50%のパスレートを超えず、中世代の状態修正において実質的な改善の余地が示される。
EchoChainは、完全二重音声インタラクションにおける状態更新推論障害の診断のための再現可能なベンチマークを提供する。
関連論文リスト
- Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - CoCo: Controllable Counterfactuals for Evaluating Dialogue State
Trackers [92.5628632009802]
本稿では,このギャップを橋渡しし,新たなシナリオにおける対話状態追跡(DST)モデルを評価するための制御可能な対策(CoCo)を提案する。
CoCoは、2つのステップで新しい会話シナリオを生成する: (i) スロットをドロップして追加し、スロット値を置き換えて、 (ii) (i) で条件付きで対話フローと整合する対実会話生成。
人間による評価では、COCO生成された会話は95%以上の精度でユーザー目標を完璧に反映し、元の会話と同じくらい人間らしくなっている。
論文 参考訳(メタデータ) (2020-10-24T09:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。