論文の概要: How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue
- arxiv url: http://arxiv.org/abs/2605.10199v1
- Date: Mon, 11 May 2026 08:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.664406
- Title: How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue
- Title(参考訳): 会話中のLLMの聴取方法 : 全二重音声対話におけるユーザストリームルーティングの検討
- Authors: Hui Lu, Xueyuan Chen, Huimeng Wang, Shuhai Peng, Shiyin Kang, Xixin Wu, Zhiyong Wu,
- Abstract要約: 音声対話システムは、ユーザ入力の到着生成をサポートする必要がある。
チャネル融合はより強力な基底的意味を持ち、一貫してより良い質問性能をもたらす。
クロスアテンションルーティングは質問応答では不十分だが、LLM生成コンテキストをよりよく保存する。
- 参考スコア(独自算出の注目度): 36.88464167279495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full-duplex spoken dialogue requires a model to keep listening while generating its own spoken response. This is challenging for large language models (LLMs), which are designed to extend a single coherent sequence and do not naturally support user input arriving during generation. We argue that how the user stream is routed into the LLM is therefore a key architectural question for full-duplex modeling. To study this question, we extend a text-only LLM into a unified full-duplex spoken dialogue system and compare two routing strategies under a shared training pipeline: (i) channel fusion, which injects the user stream directly into the LLM input, and (ii) cross-attention routing, which keeps the user stream as external memory accessed through cross-attention adapters. Experiments on spoken question answering and full-duplex interaction benchmarks reveal a clear tradeoff. Channel fusion yields stronger semantic grounding and consistently better question-answering performance. However, under semantically overlapping conditions such as user interruptions, it is more vulnerable to context corruption: if the model fails to stop in time, the overlapping user stream can interfere with ongoing generation and lead to semantically incoherent continuations. Cross-attention routing underperforms on question answering, but better preserves the LLM generation context and is more robust to this failure mode. These results establish user-stream routing as a central design axis in full-duplex spoken dialogue and offer practical guidance on the tradeoff between semantic integration and context robustness. We provide a demo page for qualitative inspection.
- Abstract(参考訳): 全二重音声対話は、独自の音声応答を生成しながら聞き続けるモデルを必要とする。
これは、単一のコヒーレントシーケンスを拡張するように設計され、生成時にユーザの入力を自然にサポートしない、大きな言語モデル(LLM)にとって難しい。
したがって、ユーザストリームがLLMにどうルーティングされるかは、フルダブルプレックスモデリングにおいて重要なアーキテクチャ上の問題である、と我々は主張する。
この問題を研究するために、テキストのみのLLMを統合された全二重音声対話システムに拡張し、2つのルーティング戦略を共有学習パイプラインで比較する。
i) LLM入力に直接ユーザストリームを注入するチャネル融合
(ii) クロスアテンションルーティング — クロスアテンションアダプタを通じて外部メモリへのアクセスとして、ユーザストリームを維持する。
音声質問応答と全二重相互作用ベンチマークの実験は明確なトレードオフを示している。
チャネル融合は、より強力なセマンティックグラウンド化と、一貫してより良い質問応答性能をもたらす。
しかし、ユーザ中断のようなセマンティックに重複した条件下では、コンテキストの破損に対してより脆弱である。モデルが時間内に停止しなかった場合、オーバーラップしたユーザストリームは継続的な生成に干渉し、セマンティックに一貫性のない継続につながる。
クロスアテンションルーティングは、質問応答では性能が劣るが、LLM生成コンテキストをよりよく保存し、この障害モードに対してより堅牢である。
これらの結果から, ユーザ・ストリーム・ルーティングは, 全二重音声対話における中心的設計軸として確立され, セマンティック・インテグレーションとコンテキスト・ロバストネスのトレードオフに関する実践的なガイダンスが得られた。
定性検査のためのデモページを提供する。
関連論文リスト
- MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models [62.05118198431989]
非同期のフル音声モデルは、AI停止のフルタイムの対話性と自然な性質によって区別される。
本フレームワークは,外部情報における知識要求型対話クエリと接地応答の同定を可能にする。
本設計では,再学習を伴わないプラグ・アンド・プレイ検索手法をサポートし,アウト・オブ・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー
論文 参考訳(メタデータ) (2026-04-14T16:17:52Z) - ChatUMM: Robust Context Tracking for Conversational Interleaved Generation [44.19929499646892]
統一マルチモーダルモデル(UMM)は目覚ましい進歩を遂げているが、シングルターン相互作用パラダイムによって制約されている。
本稿では,対話型統合モデルChatUMMを提案する。
ChatUMMは、連続的な会話の流れとしてシリアライズされたテキストイメージストリームをモデル化するインターリーブされたマルチターントレーニング戦略に由来する。
論文 参考訳(メタデータ) (2026-02-06T07:11:50Z) - Chain-of-Thought Reasoning in Streaming Full-Duplex End-to-End Spoken Dialogue Systems [82.70507055599093]
本稿では,Duplex SDS のための Streaming Chain-of-Thought (CoT) フレームワークを提案する。
ブロック毎に中間的ターゲットアライメントされたユーザ書き起こしとシステム応答を作成します。
実験により,本手法は既存の二重解法よりもコヒーレントで解釈可能な応答を生成することが示された。
論文 参考訳(メタデータ) (2025-10-02T14:33:05Z) - CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [78.01028753403575]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。
フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T07:51:45Z) - SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation [17.56310064245171]
SALMON-N-omniは、トークン遷移バックボーンなしで動作する最初の単独のフルバイト音声LLMである。
LLMバックボーン内に新しい動的思考機構が備わっており、講演と聴取の間にモデルを学習することができる。
SALMON-N-Omniは、ターンテイキング、バックチャネルエコーキャンセル、コンテキスト依存バージェインなど、複雑な会話シナリオで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-05-17T08:13:59Z) - Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文 参考訳(メタデータ) (2024-08-05T16:47:22Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。