論文の概要: From Turn-Taking to Synchronous Dialogue: A Survey of Full-Duplex Spoken Language Models
- arxiv url: http://arxiv.org/abs/2509.14515v1
- Date: Thu, 18 Sep 2025 01:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.016164
- Title: From Turn-Taking to Synchronous Dialogue: A Survey of Full-Duplex Spoken Language Models
- Title(参考訳): ターンタイキングから同期対話へ:全二重音声言語モデルの検討
- Authors: Yuxuan Chen, Haoyuan Yu,
- Abstract要約: フルデュープレックス音声通信は、自然なターンテイク、重複する音声、中断と同時聴取と会話を可能にする。
本調査はFD-SLM(Full-Duplex Spoken Language Models)を包括的にレビューする。
同期データの不足、アーキテクチャのばらつき、評価ギャップなど、基本的な課題を特定します。
- 参考スコア(独自算出の注目度): 12.741006204459637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: True Full-Duplex (TFD) voice communication--enabling simultaneous listening and speaking with natural turn-taking, overlapping speech, and interruptions--represents a critical milestone toward human-like AI interaction. This survey comprehensively reviews Full-Duplex Spoken Language Models (FD-SLMs) in the LLM era. We establish a taxonomy distinguishing Engineered Synchronization (modular architectures) from Learned Synchronization (end-to-end architectures), and unify fragmented evaluation approaches into a framework encompassing Temporal Dynamics, Behavioral Arbitration, Semantic Coherence, and Acoustic Performance. Through comparative analysis of mainstream FD-SLMs, we identify fundamental challenges: synchronous data scarcity, architectural divergence, and evaluation gaps, providing a roadmap for advancing human-AI communication.
- Abstract(参考訳): True Full-Duplex (TFD)音声通信は、人間のようなAIインタラクションにとって重要なマイルストーンを表現している。
本調査は,LLM時代のFD-SLM(Full-Duplex Spoken Language Models)を包括的にレビューする。
我々は,工学的シンクロナイゼーション(モジュラーアーキテクチャ)と学習的シンクロナイゼーション(エンドツーエンドアーキテクチャ)を区別する分類法を確立し,断片的な評価アプローチを時間的ダイナミクス,行動調整,セマンティックコヒーレンス,音響性能を含むフレームワークに統合する。
主流FD-SLMの比較分析を通じて、同期データ不足、アーキテクチャのばらつき、評価ギャップといった基本的な課題を特定し、人間とAIのコミュニケーションを進めるためのロードマップを提供する。
関連論文リスト
- Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations [48.17593420058064]
本稿では,共同自己回帰モデルに基づくパラレル音声音声対話モデルであるDrVoiceを提案する。
提案手法は,LLMの入力周波数を5Hzに低減する。
Spoken Question Answeringベンチマークの実験結果は、D RVOICEが新しい最先端(SOTA)性能を確立することを示している。
論文 参考訳(メタデータ) (2025-06-11T02:57:22Z) - A Multi-view Discourse Framework for Integrating Semantic and Syntactic Features in Dialog Agents [0.0]
マルチターン対話モデルは,会話の文脈を利用して人間的な応答を生成することを目的としている。
既存の手法はしばしばこれらの発話間の相互作用を無視したり、それら全てを等しく重要なものとして扱う。
本稿では,検索に基づく対話システムにおける応答選択のための談話認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-12T04:22:18Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。