論文の概要: Dream to Chat: Model-based Reinforcement Learning on Dialogues with User Belief Modeling
- arxiv url: http://arxiv.org/abs/2508.16876v1
- Date: Sat, 23 Aug 2025 02:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.230843
- Title: Dream to Chat: Model-based Reinforcement Learning on Dialogues with User Belief Modeling
- Title(参考訳): Dream to Chat: ユーザ信念モデリングによる対話におけるモデルに基づく強化学習
- Authors: Yue Zhao, Xiaoyu Wang, Dan Wang, Zhonglin Jiang, Qingqing Gu, Teng Chen, Ningyuan Xi, Jinxian Qu, Yong Chen, Luo Ji,
- Abstract要約: 我々は,ユーザの感情,感情,意図,将来的な発話を予測できる対話世界モデルを構築した。
本稿では,モデルに基づく強化学習フレームワークを対話システムに適用し,DreamCUBというフレームワークを提案する。
実験により、事前訓練された対話世界モデルは、感情分類と感情識別に関する最先端のパフォーマンスを達成できることが示されている。
- 参考スコア(独自算出の注目度): 11.94584582891612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models have been widely utilized in robotics, gaming, and auto-driving. However, their applications on natural language tasks are relatively limited. In this paper, we construct the dialogue world model, which could predict the user's emotion, sentiment, and intention, and future utterances. By defining a POMDP, we argue emotion, sentiment and intention can be modeled as the user belief and solved by maximizing the information bottleneck. By this user belief modeling, we apply the model-based reinforcement learning framework to the dialogue system, and propose a framework called DreamCUB. Experiments show that the pretrained dialogue world model can achieve state-of-the-art performances on emotion classification and sentiment identification, while dialogue quality is also enhanced by joint training of the policy, critic and dialogue world model. Further analysis shows that this manner holds a reasonable exploration-exploitation balance and also transfers well to out-of-domain scenarios such as empathetic dialogues.
- Abstract(参考訳): 世界モデルはロボティクス、ゲーム、自動運転で広く利用されている。
しかし、自然言語処理への応用は比較的限られている。
本稿では,ユーザの感情,感情,意図,将来的な発話を予測できる対話世界モデルを構築する。
POMDPを定義することで、感情、感情、意図をユーザの信念としてモデル化し、情報のボトルネックを最大化することで解決できると主張している。
このユーザ信念モデリングにより、モデルに基づく強化学習フレームワークを対話システムに適用し、DreamCUBと呼ばれるフレームワークを提案する。
実験により、事前訓練された対話世界モデルは、感情分類と感情識別に関する最先端のパフォーマンスを達成でき、また、ポリシー、批評家、対話世界モデルの協調トレーニングによって、対話品質も向上することが示された。
さらなる分析は、この方法が合理的な探索と探索のバランスを持ち、共感的な対話のようなドメイン外のシナリオにうまく移行していることを示している。
関連論文リスト
- Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Introducing Brain-like Concepts to Embodied Hand-crafted Dialog Management System [1.178527785547223]
本稿では,グラフィカル言語を用いた手作りモデルに基づく混合イニシアティブダイアログとアクション生成を実現するニューラル・ビヘイビア・エンジンを提案する。
このような脳のようなアーキテクチャのユーザビリティのデモは、セミパブリック空間で動作する仮想レセプタリストアプリケーションを通じて記述される。
論文 参考訳(メタデータ) (2024-06-13T10:54:03Z) - Attribution and Alignment: Effects of Local Context Repetition on
Utterance Production and Comprehension in Dialogue [6.886248462185439]
繰り返しは通常、言語モデル世代を評価する際に罰せられる。
人間はローカルとパートナーの特定の繰り返しを使用し、それらは人間のユーザーによって好まれ、対話におけるコミュニケーションをより成功させる。
本研究では, (a) 言語モデルが対話における人間的な繰り返しのレベルを生成するかどうか, (b) 理解中に使用する語彙再使用に関連する処理機構について検討する。
論文 参考訳(メタデータ) (2023-11-21T23:50:33Z) - ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented
Instruction Tuning for Digital Human [76.62897301298699]
ChatPLUGは、デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムである。
モデルネームは, 自動評価と人的評価の両方において, 最先端の中国語対話システムより優れていることを示す。
高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような実世界のアプリケーションにモデルネームをデプロイします。
論文 参考訳(メタデータ) (2023-04-16T18:16:35Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z) - Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis
Using Linguistic and Prosodic Contexts of Dialogue History [38.65020349874135]
本稿では,エンド・ツー・エンド対話音声合成(DSS)モデルを提案する。
本モデルは,適切な対話コンテキストを予測するための言語的特徴と韻律的特徴の履歴によって条件付けられている。
共感的DSSモデルを効果的に訓練するために,1) 大規模音声コーパスで事前訓練された自己教師型学習モデル,2) 対話コンテキスト埋め込みによって予測される現在の発話の韻律埋め込みを用いたスタイル誘導学習,3) テキストと音声のモダリティを結合するクロスモーダルな注意,4) 発話のワイドなモデリングよりもきめ細かな韻律モデリングを実現するための文の埋め込みについて検討する。
論文 参考訳(メタデータ) (2022-06-16T09:47:25Z) - Response Generation with Context-Aware Prompt Learning [19.340498579331555]
本稿では,対話生成問題を素早い学習課題とする,事前学習型対話モデリングのための新しい手法を提案する。
限られた対話データを微調整する代わりに、我々のアプローチであるDialogPromptは、対話コンテキストに最適化された連続的なプロンプト埋め込みを学習する。
提案手法は,微調整ベースラインと汎用的なプロンプト学習法を著しく上回っている。
論文 参考訳(メタデータ) (2021-11-04T05:40:13Z) - Investigating Robustness of Dialog Models to Popular Figurative Language
Constructs [30.841109045790862]
入力ダイアログコンテキストが図形言語の使用を示す状況において,既存のダイアログモデルの性能を解析する。
既存のモデルが図形言語に対してより堅牢になるための軽量なソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-01T23:55:16Z) - The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。
スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。
我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2020-08-28T10:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。