論文の概要: Conversational Behavior Modeling Foundation Model With Multi-Level Perception
- arxiv url: http://arxiv.org/abs/2602.11065v1
- Date: Wed, 11 Feb 2026 17:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.249578
- Title: Conversational Behavior Modeling Foundation Model With Multi-Level Perception
- Title(参考訳): マルチレベル知覚を用いた対話行動モデリング基礎モデル
- Authors: Dingkun Zhou, Shuchang Pan, Jiachen Lian, Siddharth Banerjee, Sarika Pasumarthy, Dhruv Hebbar, Siddhant Patel, Zeyi Austin Li, Kan Jen Cheng, Sanay Bordia, Krish Patel, Akshaj Gupta, Tingle Li, Gopala Anumanchipalli,
- Abstract要約: 我々は、Graph-of-Thoughts (GoT)を介して会話行動に対する意図と理由を予測するフレームワークモデルを導入する。
GoTはストリーミング予測を進化グラフとして構成し、トランスフォーマーが次の音声行為を予測することで、その決定に対する簡潔な正当化を生成する。
実験により、このフレームワークは頑健な行動検出を行い、解釈可能な推論連鎖を生成し、完全な二重音声対話システムにおいて会話推論をベンチマークするための基盤を確立する。
- 参考スコア(独自算出の注目度): 13.659870465634228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human conversation is organized by an implicit chain of thoughts that manifests as timed speech acts. Capturing this perceptual pathway is key to building natural full-duplex interactive systems. We introduce a framework that models this process as multi-level perception, and then reasons over conversational behaviors via a Graph-of-Thoughts (GoT). Our approach formalizes the intent-to-action pathway with a hierarchical labeling scheme, predicting high-level communicative intents and low-level speech acts to learn their causal and temporal dependencies. To train this system, we develop a high quality corpus that pairs controllable, event-rich dialogue data with human-annotated labels. The GoT framework structures streaming predictions as an evolving graph, enabling a transformer to forecast the next speech act, generate concise justifications for its decisions, and dynamically refine its reasoning. Experiments on both synthetic and real duplex dialogues show that the framework delivers robust behavior detection, produces interpretable reasoning chains, and establishes a foundation for benchmarking conversational reasoning in full duplex spoken dialogue systems.
- Abstract(参考訳): 人間の会話は、タイムドスピーチの行動として現れる暗黙の思考の連鎖によって組織される。
この知覚経路を捉えることは、自然のフルダブル・インタラクティブシステムを構築する上で鍵となる。
我々は,このプロセスを多段階認識としてモデル化するフレームワークを導入し,グラフ・オブ・ソート(GoT)による会話行動の理由について述べる。
提案手法は,階層的なラベリング方式を用いて意図と行動の経路を定式化し,高レベルなコミュニケーション意図と低レベルな発話行為を予測し,因果的・時間的依存関係を学習する。
このシステムを訓練するために、制御可能でイベントリッチな対話データと人間の注釈付きラベルとをペアリングする高品質なコーパスを開発する。
GoTフレームワークは、ストリーミング予測を進化グラフとして構成し、トランスフォーマーが次の音声行為を予測し、その決定に対する簡潔な正当化を生成し、その推論を動的に洗練する。
合成対話と実二重音声対話の両方の実験により、このフレームワークは堅牢な行動検出を行い、解釈可能な推論連鎖を生成し、完全な二重音声対話システムにおいて会話推論をベンチマークするための基盤を確立する。
関連論文リスト
- Enabling Conversational Behavior Reasoning Capabilities in Full-Duplex Speech [15.41279444168073]
我々は,このプロセスをグラフ・オブ・ソート(GoT)内の因果推論としてモデル化することで,会話行動に対する推論を可能にするフレームワークを導入する。
我々は、制御可能でイベントリッチなシミュレーションと、有意な有理数と実際の会話音声とを組み合わせたハイブリッドコーパスを開発する。
GoTフレームワークは、ストリーミング予測を進化グラフとして構成し、マルチモーダルトランスフォーマーが次の音声行為を予測することを可能にする。
論文 参考訳(メタデータ) (2025-12-25T15:00:50Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Unsupervised Mutual Learning of Discourse Parsing and Topic Segmentation in Dialogue [37.618612723025784]
対話システムでは、会話の焦点の管理と対話のコーディネートにおいて、会話が重要な役割を果たす。
修辞的構造と主題的構造という2つの重要な構造から構成される。
我々は、修辞構造とトピック構造を統合する統一表現を導入し、それら間のセマンティック一貫性を確保する。
本稿では,レトリック構造とトピック構造を協調的にモデル化し,追加アノテーションを必要とせずに相互に強化できる教師なし相互学習フレームワーク(UMLF)を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:10:50Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Discovering Dialog Structure Graph for Open-Domain Dialog Generation [51.29286279366361]
chitchat corporaの対話構造を無監督で発見します。
次に、下流システムでのダイアログ生成を容易にするために利用します。
本稿では,グラフニューラルネットワーク(DVAE-GNN)を用いた離散変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-31T10:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。