論文の概要: Replicating Complex Dialogue Policy of Humans via Offline Imitation
Learning with Supervised Regularization
- arxiv url: http://arxiv.org/abs/2305.03987v1
- Date: Sat, 6 May 2023 09:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 18:17:54.253911
- Title: Replicating Complex Dialogue Policy of Humans via Offline Imitation
Learning with Supervised Regularization
- Title(参考訳): 教師付き正規化によるオフライン模倣学習による人間の複合対話政策の再現
- Authors: Zhoujian Sun, Chenyang Zhao, Zhengxing Huang, Nai Ding
- Abstract要約: ポリシーラーニング(英: Policy Learning、PL)は、エージェントに各対話のターンでアクションをするように訓練するタスク指向の対話システムのモジュールである。
教師付き学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。
本研究では,実対話データセットからポリシーを学習するオフライン模倣学習モデルを提案する。
- 参考スコア(独自算出の注目度): 7.151589223349882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy learning (PL) is a module of a task-oriented dialogue system that
trains an agent to make actions in each dialogue turn. Imitating human action
is a fundamental problem of PL. However, both supervised learning (SL) and
reinforcement learning (RL) frameworks cannot imitate humans well. Training RL
models require online interactions with user simulators, while simulating
complex human policy is hard. Performances of SL-based models are restricted
because of the covariate shift problem. Specifically, a dialogue is a
sequential decision-making process where slight differences in current
utterances and actions will cause significant differences in subsequent
utterances. Therefore, the generalize ability of SL models is restricted
because statistical characteristics of training and testing dialogue data
gradually become different. This study proposed an offline imitation learning
model that learns policy from real dialogue datasets and does not require user
simulators. It also utilizes state transition information, which alleviates the
influence of the covariate shift problem. We introduced a regularization trick
to make our model can be effectively optimized. We investigated the performance
of our model on four independent public dialogue datasets. The experimental
result showed that our model performed better in the action prediction task.
- Abstract(参考訳): ポリシー学習(pl)は、エージェントが各対話の順番に行動を起こすように訓練するタスク指向対話システムのモジュールである。
人間の行動の緩和はPLの根本的な問題である。
しかし、教師あり学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。
RLモデルのトレーニングにはユーザシミュレータとのオンラインインタラクションが必要であり、複雑なヒューマンポリシーのシミュレーションは難しい。
SLモデルの性能は共変量シフトの問題により制限される。
特に、対話は、現在の発話と行動のわずかな違いがその後の発話に大きな違いをもたらすような、逐次的な意思決定プロセスである。
したがって, SLモデルの一般化能力は, 学習とテストの対話データの統計的特性が徐々に異なるため, 制限される。
本研究では,実際の対話データセットからポリシーを学習し,ユーザシミュレータを必要としないオフライン模倣学習モデルを提案する。
また、状態遷移情報を利用して、共変量シフト問題の影響を軽減する。
私たちはモデルを効果的に最適化できるように正規化のトリックを導入しました。
4つの独立した公開対話データセットにおけるモデルの性能について検討した。
実験の結果, 行動予測タスクにおいて, モデルの性能は良好であった。
関連論文リスト
- Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T06:27:26Z) - Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner [51.77263363285369]
本稿では,対話行動トークンと呼ばれる言語モデルエージェントを用いて,目標指向の対話を計画する手法を提案する。
中心となる考え方は、各発話をアクションとして扱うことで、強化学習のような既存のアプローチを適用することができるゲームに対話を変換することである。
論文 参考訳(メタデータ) (2024-06-17T18:01:32Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Adaptive Dialog Policy Learning with Hindsight and User Modeling [10.088347529930129]
シミュレーションと実ユーザの両方から,ダイアログエージェントが後見で適応的に学習できるアルゴリズムLHUAを開発した。
実験結果から、LHUAは成功率と政策品質において、文献の競争基準よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-05-07T07:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。