論文の概要: Replicating Complex Dialogue Policy of Humans via Offline Imitation
Learning with Supervised Regularization
- arxiv url: http://arxiv.org/abs/2305.03987v1
- Date: Sat, 6 May 2023 09:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 18:17:54.253911
- Title: Replicating Complex Dialogue Policy of Humans via Offline Imitation
Learning with Supervised Regularization
- Title(参考訳): 教師付き正規化によるオフライン模倣学習による人間の複合対話政策の再現
- Authors: Zhoujian Sun, Chenyang Zhao, Zhengxing Huang, Nai Ding
- Abstract要約: ポリシーラーニング(英: Policy Learning、PL)は、エージェントに各対話のターンでアクションをするように訓練するタスク指向の対話システムのモジュールである。
教師付き学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。
本研究では,実対話データセットからポリシーを学習するオフライン模倣学習モデルを提案する。
- 参考スコア(独自算出の注目度): 7.151589223349882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy learning (PL) is a module of a task-oriented dialogue system that
trains an agent to make actions in each dialogue turn. Imitating human action
is a fundamental problem of PL. However, both supervised learning (SL) and
reinforcement learning (RL) frameworks cannot imitate humans well. Training RL
models require online interactions with user simulators, while simulating
complex human policy is hard. Performances of SL-based models are restricted
because of the covariate shift problem. Specifically, a dialogue is a
sequential decision-making process where slight differences in current
utterances and actions will cause significant differences in subsequent
utterances. Therefore, the generalize ability of SL models is restricted
because statistical characteristics of training and testing dialogue data
gradually become different. This study proposed an offline imitation learning
model that learns policy from real dialogue datasets and does not require user
simulators. It also utilizes state transition information, which alleviates the
influence of the covariate shift problem. We introduced a regularization trick
to make our model can be effectively optimized. We investigated the performance
of our model on four independent public dialogue datasets. The experimental
result showed that our model performed better in the action prediction task.
- Abstract(参考訳): ポリシー学習(pl)は、エージェントが各対話の順番に行動を起こすように訓練するタスク指向対話システムのモジュールである。
人間の行動の緩和はPLの根本的な問題である。
しかし、教師あり学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。
RLモデルのトレーニングにはユーザシミュレータとのオンラインインタラクションが必要であり、複雑なヒューマンポリシーのシミュレーションは難しい。
SLモデルの性能は共変量シフトの問題により制限される。
特に、対話は、現在の発話と行動のわずかな違いがその後の発話に大きな違いをもたらすような、逐次的な意思決定プロセスである。
したがって, SLモデルの一般化能力は, 学習とテストの対話データの統計的特性が徐々に異なるため, 制限される。
本研究では,実際の対話データセットからポリシーを学習し,ユーザシミュレータを必要としないオフライン模倣学習モデルを提案する。
また、状態遷移情報を利用して、共変量シフト問題の影響を軽減する。
私たちはモデルを効果的に最適化できるように正規化のトリックを導入しました。
4つの独立した公開対話データセットにおけるモデルの性能について検討した。
実験の結果, 行動予測タスクにおいて, モデルの性能は良好であった。
関連論文リスト
- Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Toward Self-Learning End-to-End Dialog Systems [107.65369860922392]
環境変化におけるエンドツーエンドの対話システムを構築するための自己学習フレームワークであるSL-Agentを提案する。
SL-Agentは、システム応答の品質を判断するダイアログモデルと事前訓練された報酬モデルから構成される。
実験により、SL-Agentは限定的な人間の修正によって、新しいタスクに効果的に適応できることが示されている。
論文 参考訳(メタデータ) (2022-01-18T09:56:35Z) - Automatic Curriculum Learning With Over-repetition Penalty for Dialogue
Policy Learning [8.744026064255337]
ACL-DQN(Automatic Curriculum Learning-based Deep Q-Network)という新しいフレームワークを提案し,自動カリキュラム学習のための対話方針を実現する。
教師モデルは、有意義な順序のカリキュラムを配置し、対話エージェントの学習進捗を監視して自動的に調整する。
実験により,ACL-DQNは,統計的に有意なマージンを有する対話タスクの有効性と安定性を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-12-28T02:44:49Z) - Adaptive Dialog Policy Learning with Hindsight and User Modeling [10.088347529930129]
シミュレーションと実ユーザの両方から,ダイアログエージェントが後見で適応的に学習できるアルゴリズムLHUAを開発した。
実験結果から、LHUAは成功率と政策品質において、文献の競争基準よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-05-07T07:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。