論文の概要: Chronological Thinking in Full-Duplex Spoken Dialogue Language Models
- arxiv url: http://arxiv.org/abs/2510.05150v1
- Date: Thu, 02 Oct 2025 10:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.85836
- Title: Chronological Thinking in Full-Duplex Spoken Dialogue Language Models
- Title(参考訳): 全二重音声対話言語モデルにおける時系列思考
- Authors: Donghang Wu, Haoyang Zhang, Chen Chen, Tianyu Zhang, Fei Tian, Xuerui Yang, Gang Yu, Hexin Liu, Nana Hou, Yuchen Hu, Eng Siong Chng,
- Abstract要約: 時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
- 参考スコア(独自算出の注目度): 66.84843878538207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in spoken dialogue language models (SDLMs) reflect growing interest in shifting from turn-based to full-duplex systems, where the models continuously perceive user speech streams while generating responses. This simultaneous listening and speaking design enables real-time interaction and the agent can handle dynamic conversational behaviors like user barge-in. However, during the listening phase, existing systems keep the agent idle by repeatedly predicting the silence token, which departs from human behavior: we usually engage in lightweight thinking during conversation rather than remaining absent-minded. Inspired by this, we propose Chronological Thinking, a on-the-fly conversational thinking mechanism that aims to improve response quality in full-duplex SDLMs. Specifically, chronological thinking presents a paradigm shift from conventional LLM thinking approaches, such as Chain-of-Thought, purpose-built for streaming acoustic input. (1) Strictly causal: the agent reasons incrementally while listening, updating internal hypotheses only from past audio with no lookahead. (2) No additional latency: reasoning is amortized during the listening window; once the user stops speaking, the agent halts thinking and begins speaking without further delay. Experiments demonstrate the effectiveness of chronological thinking through both objective metrics and human evaluations show consistent improvements in response quality. Furthermore, chronological thinking robustly handles conversational dynamics and attains competitive performance on full-duplex interaction metrics.
- Abstract(参考訳): 音声対話言語モデル(SDLM)の最近の進歩は、ターンベースからフルダブルプレックスシステムへの移行に対する関心の高まりを反映している。
この同時聴取および発話設計により、リアルタイムの対話が可能となり、エージェントはユーザーバージインのような動的な会話行動を処理することができる。
しかしながら、リスニングフェーズの間、既存のシステムはサイレントトークンを繰り返し予測することでエージェントをアイドル状態に保ち、それは人間の行動から逸脱する。
そこで本研究では,全二重SDLMの応答品質向上を目的とした,オンザフライ対話型思考機構であるChronoological Thinkingを提案する。
特に、時系列思考は、ストリーミング音響入力のためのChain-of-Thoughtのような従来のLLM思考アプローチからパラダイムシフトを示す。
1) 厳密な因果関係: エージェントは聴取中に段階的に原因を定め, 過去の音声のみからのみ内部仮説を更新する。
2) 追加の遅延がない:リスニングウィンドウ中に推論が償却される; ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なく話し始める。
客観的指標と人的評価の両方による時系列思考の有効性を示す実験では、応答品質が一貫した改善が見られた。
さらに、時間的思考は会話のダイナミクスをしっかりと処理し、完全な二重相互作用メトリクス上での競合性能を達成する。
関連論文リスト
- Conversational Behavior Modeling Foundation Model With Multi-Level Perception [13.659870465634228]
我々は、Graph-of-Thoughts (GoT)を介して会話行動に対する意図と理由を予測するフレームワークモデルを導入する。
GoTはストリーミング予測を進化グラフとして構成し、トランスフォーマーが次の音声行為を予測することで、その決定に対する簡潔な正当化を生成する。
実験により、このフレームワークは頑健な行動検出を行い、解釈可能な推論連鎖を生成し、完全な二重音声対話システムにおいて会話推論をベンチマークするための基盤を確立する。
論文 参考訳(メタデータ) (2026-02-11T17:32:52Z) - F-Actor: Controllable Conversational Behaviour in Full-Duplex Models [70.48189107402145]
典型的な学術的制約下で効率的に訓練できる,第1にオープンかつ命令追従型全段階会話音声モデルを提案する。
我々のモデルは、大規模な事前訓練や多段階事前訓練に頼ることなく、わずか2000時間のデータしか必要としない。
モデルとトレーニングコードの両方がリリースされ、制御可能なフルステージ音声システムに関する再現可能な研究が可能になる。
論文 参考訳(メタデータ) (2026-01-16T14:25:57Z) - The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era [95.35748535806744]
我々はICASSP 2026で最初のヒューマンライクな音声対話システムチャレンジ(HumDial)を開催する。
本稿では,データセット,トラック構成,最終結果について概説する。
論文 参考訳(メタデータ) (2026-01-09T06:32:30Z) - Enabling Conversational Behavior Reasoning Capabilities in Full-Duplex Speech [15.41279444168073]
我々は,このプロセスをグラフ・オブ・ソート(GoT)内の因果推論としてモデル化することで,会話行動に対する推論を可能にするフレームワークを導入する。
我々は、制御可能でイベントリッチなシミュレーションと、有意な有理数と実際の会話音声とを組み合わせたハイブリッドコーパスを開発する。
GoTフレームワークは、ストリーミング予測を進化グラフとして構成し、マルチモーダルトランスフォーマーが次の音声行為を予測することを可能にする。
論文 参考訳(メタデータ) (2025-12-25T15:00:50Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - DUMA: a Dual-Mind Conversational Agent with Fast and Slow Thinking [12.71072798544731]
DUMAは2つの生成型Large Language Model(LLM)をそれぞれ高速な思考と低速な思考に利用することで、デュアルミンドのメカニズムを具現化している。
我々は、不動産業界のオンライン調査を扱うための会話エージェントを構築した。
論文 参考訳(メタデータ) (2023-10-27T11:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。