論文の概要: Chronological Thinking in Full-Duplex Spoken Dialogue Language Models
- arxiv url: http://arxiv.org/abs/2510.05150v2
- Date: Wed, 08 Oct 2025 21:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.558888
- Title: Chronological Thinking in Full-Duplex Spoken Dialogue Language Models
- Title(参考訳): 全二重音声対話言語モデルにおける時系列思考
- Authors: Donghang Wu, Haoyang Zhang, Chen Chen, Tianyu Zhang, Fei Tian, Xuerui Yang, Gang Yu, Hexin Liu, Nana Hou, Yuchen Hu, Eng Siong Chng,
- Abstract要約: 時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
- 参考スコア(独自算出の注目度): 66.84843878538207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in spoken dialogue language models (SDLMs) reflect growing interest in shifting from turn-based to full-duplex systems, where the models continuously perceive user speech streams while generating responses. This simultaneous listening and speaking design enables real-time interaction and the agent can handle dynamic conversational behaviors like user barge-in. However, during the listening phase, existing systems keep the agent idle by repeatedly predicting the silence token, which departs from human behavior: we usually engage in lightweight thinking during conversation rather than remaining absent-minded. Inspired by this, we propose Chronological Thinking, a on-the-fly conversational thinking mechanism that aims to improve response quality in full-duplex SDLMs. Specifically, chronological thinking presents a paradigm shift from conventional LLM thinking approaches, such as Chain-of-Thought, purpose-built for streaming acoustic input. (1) Strictly causal: the agent reasons incrementally while listening, updating internal hypotheses only from past audio with no lookahead. (2) No additional latency: reasoning is amortized during the listening window; once the user stops speaking, the agent halts thinking and begins speaking without further delay. Experiments demonstrate the effectiveness of chronological thinking through both objective metrics and human evaluations show consistent improvements in response quality. Furthermore, chronological thinking robustly handles conversational dynamics and attains competitive performance on full-duplex interaction metrics.
- Abstract(参考訳): 音声対話言語モデル(SDLM)の最近の進歩は、ターンベースからフルダブルプレックスシステムへの移行に対する関心の高まりを反映している。
この同時聴取および発話設計により、リアルタイムの対話が可能となり、エージェントはユーザーバージインのような動的な会話行動を処理することができる。
しかしながら、リスニングフェーズの間、既存のシステムはサイレントトークンを繰り返し予測することでエージェントをアイドル状態に保ち、それは人間の行動から逸脱する。
そこで本研究では,全二重SDLMの応答品質向上を目的とした,オンザフライ対話型思考機構であるChronoological Thinkingを提案する。
特に、時系列思考は、ストリーミング音響入力のためのChain-of-Thoughtのような従来のLLM思考アプローチからパラダイムシフトを示す。
1) 厳密な因果関係: エージェントは聴取中に段階的に原因を定め, 過去の音声のみからのみ内部仮説を更新する。
2) 追加の遅延がない:リスニングウィンドウ中に推論が償却される; ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なく話し始める。
客観的指標と人的評価の両方による時系列思考の有効性を示す実験では、応答品質が一貫した改善が見られた。
さらに、時間的思考は会話のダイナミクスをしっかりと処理し、完全な二重相互作用メトリクス上での競合性能を達成する。
関連論文リスト
- FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。