論文の概要: The Silent Thought: Modeling Internal Cognition in Full-Duplex Spoken Dialogue Models via Latent Reasoning
- arxiv url: http://arxiv.org/abs/2603.17837v1
- Date: Wed, 18 Mar 2026 15:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.79491
- Title: The Silent Thought: Modeling Internal Cognition in Full-Duplex Spoken Dialogue Models via Latent Reasoning
- Title(参考訳): サイレント思考:潜在推論による全二重音声対話モデルにおける内部認知のモデル化
- Authors: Donghang Wu, Tianyu Zhang, Yuxin Li, Hexin Liu, Chen Chen, Eng Siong Chng, Yoshua Bengio,
- Abstract要約: 内部認知処理は高品質な応答の定式化に役立っている。
本稿では,音声認識と同時に潜在的思考を行うFLAIRという新しい手法を提案する。
我々のアプローチは音声対話システムとシームレスに一致している。
- 参考スコア(独自算出の注目度): 76.96796481909581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During conversational interactions, humans subconsciously engage in concurrent thinking while listening to a speaker. Although this internal cognitive processing may not always manifest as explicit linguistic structures, it is instrumental in formulating high-quality responses. Inspired by this cognitive phenomenon, we propose a novel Full-duplex LAtent and Internal Reasoning method named FLAIR that conducts latent thinking simultaneously with speech perception. Unlike conventional "thinking" mechanisms in NLP, which require post-hoc generation, our approach aligns seamlessly with spoken dialogue systems: during the user's speaking phase, it recursively feeds the latent embedding output from the previous step into the next step, enabling continuous reasoning that strictly adheres to causality without introducing additional latency. To enable this latent reasoning, we design an Evidence Lower Bound-based objective that supports efficient supervised finetuning via teacher forcing, circumventing the need for explicit reasoning annotations. Experiments demonstrate the effectiveness of this think-while-listening design, which achieves competitive results on a range of speech benchmarks. Furthermore, FLAIR robustly handles conversational dynamics and attains competitive performance on full-duplex interaction metrics.
- Abstract(参考訳): 会話の相互作用の間、人間はスピーカーを聴きながら同時に思考を行う。
この内部認知処理は、必ずしも明示的な言語構造として表されるわけではないが、高品質な応答の定式化に役立っている。
本稿では,この認知現象に触発されたFLAIRという新手法を提案する。
NLPの従来の「思考」メカニズムとは異なり、我々のアプローチは音声対話システムとシームレスに一致している。ユーザの発話フェーズでは、前ステップからの潜伏埋め込み出力を次のステップに再帰的に供給し、追加のレイテンシを導入することなく因果関係に厳密に固執する連続推論を可能にする。
この潜伏推論を可能にするために,教師の強制による教師の指導を効果的に支援し,明示的な推論アノテーションの必要性を回避するためのエビデンス・ロー・バウンドに基づく目標を設計する。
実験では、この思考時リストング設計の有効性を示し、様々な音声ベンチマークで競合する結果が得られる。
さらに、FLAIRは会話のダイナミクスをしっかりと処理し、フル二重のインタラクションメトリクス上での競合的なパフォーマンスを達成する。
関連論文リスト
- Conversational Behavior Modeling Foundation Model With Multi-Level Perception [13.659870465634228]
我々は、Graph-of-Thoughts (GoT)を介して会話行動に対する意図と理由を予測するフレームワークモデルを導入する。
GoTはストリーミング予測を進化グラフとして構成し、トランスフォーマーが次の音声行為を予測することで、その決定に対する簡潔な正当化を生成する。
実験により、このフレームワークは頑健な行動検出を行い、解釈可能な推論連鎖を生成し、完全な二重音声対話システムにおいて会話推論をベンチマークするための基盤を確立する。
論文 参考訳(メタデータ) (2026-02-11T17:32:52Z) - Enabling Conversational Behavior Reasoning Capabilities in Full-Duplex Speech [15.41279444168073]
我々は,このプロセスをグラフ・オブ・ソート(GoT)内の因果推論としてモデル化することで,会話行動に対する推論を可能にするフレームワークを導入する。
我々は、制御可能でイベントリッチなシミュレーションと、有意な有理数と実際の会話音声とを組み合わせたハイブリッドコーパスを開発する。
GoTフレームワークは、ストリーミング予測を進化グラフとして構成し、マルチモーダルトランスフォーマーが次の音声行為を予測することを可能にする。
論文 参考訳(メタデータ) (2025-12-25T15:00:50Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models [80.75260664100644]
Mini-Omni-Reasonerは、"Thinking-in-Speaking"という新しい定式化を通じて、音声内での推論を可能にするフレームワークである。
トークンレベルで音声応答トークンとサイレント推論トークンをインターリーブする。
算術的推論では+19.1%、文脈的理解では+6.4%、出力は短く、復号遅延はゼロである。
論文 参考訳(メタデータ) (2025-08-18T15:14:04Z) - Multi-dimensional Evaluation of Empathetic Dialog Responses [4.580983642743026]
話者の視点から表現された意図と聴取者の視点から認識された共感の両方を測定するための多次元共感評価フレームワークを提案する。
両次元が相互接続されているのに対して,共感は対話満足度と高い相関関係にあることがわかった。
論文 参考訳(メタデータ) (2024-02-18T00:32:33Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。