論文の概要: Synchronization and Turn-Taking in Full-Duplex Speech Dialogue Models
- arxiv url: http://arxiv.org/abs/2605.20356v1
- Date: Tue, 19 May 2026 18:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.31195
- Title: Synchronization and Turn-Taking in Full-Duplex Speech Dialogue Models
- Title(参考訳): 全二重音声対話モデルにおける同期とターンタイキング
- Authors: Pablo Riera, Pablo Brusco, Cristina Kuo, Marcelo Sancinetti, S. R. K. Branavan,
- Abstract要約: 完全な音声対話モデルは、ターンベースシステムよりも人間の会話に近い声を同時に話すことができる。
本研究では,人間のコミュニケーションにおいて,ニューラルカップリングを用いた内部相互作用を協調するモデルを提案する。
雑音のない条件下では強い表現同期が得られ、ラグはゼロに近づき、ノイズは劣化する。
- 参考スコア(独自算出の注目度): 3.5946669116828134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full-duplex spoken dialogue models (SDMs) can listen and speak simultaneously, enabling interaction dynamics closer to human conversation than turn-based systems. Inspired by neural coupling in human communication, we study how such models coordinate their internal representations during interaction. We simulate full-duplex dialogues between two instances of the pretrained \textit{Moshi} model under controlled conditions, manipulating channel noise and decoding bias. Synchronization is measured using Centered Kernel Alignment (CKA) across temporal lags, while anticipatory turn-taking cues are probed from delayed internal activations using causal LSTM models, from both speaker and listener perspectives. We find strong representational synchronization under no noise conditions, peaking near zero lag and degrading with noise, and we show that internal states encode anticipatory information that supports turn-taking prediction ahead of time.
- Abstract(参考訳): 全二重音声対話モデル(SDM)は、ターンベースシステムよりも人間の会話に近いインタラクションダイナミクスを可能にする。
人間のコミュニケーションにおけるニューラルカップリングに触発されて、そのようなモデルが相互作用中の内部表現をどのように調整するかを考察する。
制御条件下での事前学習された \textit{Moshi} モデルの2つのインスタンス間の全二重対話をシミュレートし、チャネルノイズと復号バイアスを操作する。
シンクロナイゼーションはCKA(Central Kernel Alignment)を用いて時間ラグを横断して測定する一方、話者とリスナーの両方の観点から、因果LSTMモデルを用いて遅延内部の活性化から予測的なターンテイク手がかりを探索する。
ノイズ条件のない強い表現同期,ゼロラグ付近のピーク,ノイズによる劣化などを見いだし,事前のターンテイク予測を支援する予測情報を内部状態にエンコードしていることを示す。
関連論文リスト
- Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - From Turn-Taking to Synchronous Dialogue: A Survey of Full-Duplex Spoken Language Models [12.741006204459637]
フルデュープレックス音声通信は、自然なターンテイク、重複する音声、中断と同時聴取と会話を可能にする。
本調査はFD-SLM(Full-Duplex Spoken Language Models)を包括的にレビューする。
同期データの不足、アーキテクチャのばらつき、評価ギャップなど、基本的な課題を特定します。
論文 参考訳(メタデータ) (2025-09-18T01:00:58Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。