論文の概要: FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction
- arxiv url: http://arxiv.org/abs/2509.22243v1
- Date: Fri, 26 Sep 2025 11:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.40493
- Title: FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction
- Title(参考訳): FLEXI: フルダブルヒューマン-LLM音声インタラクションのベンチマーク
- Authors: Yuan Ge, Saihan Chen, Jingqi Xiao, Xiaoqian Liu, Tong Xiao, Yan Xiang, Zhengtao Yu, Jingbo Zhu,
- Abstract要約: 音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
- 参考スコア(独自算出の注目度): 49.83226596963294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full-Duplex Speech-to-Speech Large Language Models (LLMs) are foundational to natural human-computer interaction, enabling real-time spoken dialogue systems. However, benchmarking and modeling these models remains a fundamental challenge. We introduce FLEXI, the first benchmark for full-duplex LLM-human spoken interaction that explicitly incorporates model interruption in emergency scenarios. FLEXI systematically evaluates the latency, quality, and conversational effectiveness of real-time dialogue through six diverse human-LLM interaction scenarios, revealing significant gaps between open source and commercial models in emergency awareness, turn terminating, and interaction latency. Finally, we suggest that next token-pair prediction offers a promising path toward achieving truly seamless and human-like full-duplex interaction.
- Abstract(参考訳): LLM(Full-Duplex Speech-to-Speech Large Language Models)は、人間とコンピュータの対話に基礎を置き、リアルタイム音声対話システムを実現する。
しかし、これらのモデルのベンチマークとモデリングは依然として根本的な課題である。
FLEXIは,緊急シナリオにモデル中断を明示的に組み込んだ,フル二重化LLM音声対話のための最初のベンチマークである。
FLEXIは、6つの異なる人-LLMインタラクションシナリオを通じてリアルタイム対話のレイテンシ、品質、会話の有効性を体系的に評価し、緊急認識、ターン終了、インタラクション遅延において、オープンソースと商用モデルの間に大きなギャップがあることを明らかにする。
最後に、次のトークンペア予測は、真にシームレスで人間的なフルダブルプレックスなインタラクションを実現するための、有望な道を提供することを提案する。
関連論文リスト
- Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。