論文の概要: Enabling Conversational Behavior Reasoning Capabilities in Full-Duplex Speech
- arxiv url: http://arxiv.org/abs/2512.21706v1
- Date: Thu, 25 Dec 2025 15:00:50 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:56:26.359268
- Title: Enabling Conversational Behavior Reasoning Capabilities in Full-Duplex Speech
- Title(参考訳): 全二重音声における会話行動推論機能の実現
- Authors: Shuchang Pan, Siddharth Banerjee, Dhruv Hebbar, Siddhant Patel, Akshaj Gupta, Kan Jen Cheng, Hanjo Kim, Zeyi Austin Li, Martin Q. Ma, Tingle Li, Gopala Anumanchipalli, Jiachen Lian,
- Abstract要約: 我々は,このプロセスをグラフ・オブ・ソート(GoT)内の因果推論としてモデル化することで,会話行動に対する推論を可能にするフレームワークを導入する。
我々は、制御可能でイベントリッチなシミュレーションと、有意な有理数と実際の会話音声とを組み合わせたハイブリッドコーパスを開発する。
GoTフレームワークは、ストリーミング予測を進化グラフとして構成し、マルチモーダルトランスフォーマーが次の音声行為を予測することを可能にする。
- 参考スコア(独自算出の注目度): 15.41279444168073
- License:
- Abstract: Human conversation is organized by an implicit chain of thoughts that manifests as timed speech acts. Capturing this causal pathway is key to building natural full-duplex interactive systems. We introduce a framework that enables reasoning over conversational behaviors by modeling this process as causal inference within a Graph-of-Thoughts (GoT). Our approach formalizes the intent-to-action pathway with a hierarchical labeling scheme, predicting high-level communicative intents and low-level speech acts to learn their causal and temporal dependencies. To train this system, we develop a hybrid corpus that pairs controllable, event-rich simulations with human-annotated rationales and real conversational speech. The GoT framework structures streaming predictions as an evolving graph, enabling a multimodal transformer to forecast the next speech act, generate concise justifications for its decisions, and dynamically refine its reasoning. Experiments on both synthetic and real duplex dialogues show that the framework delivers robust behavior detection, produces interpretable reasoning chains, and establishes a foundation for benchmarking conversational reasoning in full duplex spoken dialogue systems.
- Abstract(参考訳): 人間の会話は、タイムドスピーチの行動として現れる暗黙の思考の連鎖によって組織される。
この因果経路を捉えることは、自然のフルダブル・インタラクティブシステムを構築する上で鍵となる。
本稿では,このプロセスをグラフ・オブ・ソート(GoT)内の因果推論としてモデル化することで,会話行動に対する推論を可能にするフレームワークを提案する。
提案手法は,階層的なラベリング方式を用いて意図と行動の経路を定式化し,高レベルなコミュニケーション意図と低レベルな発話行為を予測し,因果的・時間的依存関係を学習する。
このシステムを訓練するために、制御可能でイベントリッチなシミュレーションと人間の注釈付き有理数と実際の会話音声とを組み合わせたハイブリッドコーパスを開発した。
GoTフレームワークは、ストリーミング予測を進化グラフとして構成し、マルチモーダルトランスフォーマーが次の音声行為を予測し、その決定に対する簡潔な正当化を生成し、その推論を動的に洗練する。
合成対話と実二重音声対話の両方の実験により、このフレームワークは堅牢な行動検出を行い、解釈可能な推論連鎖を生成し、完全な二重音声対話システムにおいて会話推論をベンチマークするための基盤を確立する。
関連論文リスト
- Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Unsupervised Mutual Learning of Discourse Parsing and Topic Segmentation in Dialogue [37.618612723025784]
対話システムでは、会話の焦点の管理と対話のコーディネートにおいて、会話が重要な役割を果たす。
修辞的構造と主題的構造という2つの重要な構造から構成される。
我々は、修辞構造とトピック構造を統合する統一表現を導入し、それら間のセマンティック一貫性を確保する。
本稿では,レトリック構造とトピック構造を協調的にモデル化し,追加アノテーションを必要とせずに相互に強化できる教師なし相互学習フレームワーク(UMLF)を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:10:50Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。