論文の概要: Diluted Near-Optimal Expert Demonstrations for Guiding Dialogue
Stochastic Policy Optimisation
- arxiv url: http://arxiv.org/abs/2012.04687v1
- Date: Wed, 25 Nov 2020 15:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 01:44:57.873182
- Title: Diluted Near-Optimal Expert Demonstrations for Guiding Dialogue
Stochastic Policy Optimisation
- Title(参考訳): 対話確率的ポリシー最適化のための希薄な準最適専門家デモ
- Authors: Thibault Cordier, Tanguy Urvoy, Lina M. Rojas-Barahona, Fabrice
Lef\`evre
- Abstract要約: 学習対話エージェントは、人間対人間の会話からその振る舞いを推測することができる。
学習プロセスを高速化する一つの解決策は、専門家の助けを借りてエージェントの探索を導くことである。
我々は,指導専門家がほぼ最適手工芸政策である対話政策の模倣学習戦略をいくつか提示する。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A learning dialogue agent can infer its behaviour from interactions with the
users. These interactions can be taken from either human-to-human or
human-machine conversations. However, human interactions are scarce and costly,
making learning from few interactions essential. One solution to speedup the
learning process is to guide the agent's exploration with the help of an
expert. We present in this paper several imitation learning strategies for
dialogue policy where the guiding expert is a near-optimal handcrafted policy.
We incorporate these strategies with state-of-the-art reinforcement learning
methods based on Q-learning and actor-critic. We notably propose a randomised
exploration policy which allows for a seamless hybridisation of the learned
policy and the expert. Our experiments show that our hybridisation strategy
outperforms several baselines, and that it can accelerate the learning when
facing real humans.
- Abstract(参考訳): 学習対話エージェントは、ユーザとのインタラクションからその動作を推測することができる。
これらの相互作用は、人間と機械の会話から取ることができる。
しかし、人間の相互作用は乏しくコストがかかるため、ほとんど相互作用から学ぶことは不可欠である。
学習プロセスを高速化する一つの解決策は、専門家の助けを借りてエージェントの探索を導くことである。
本稿では,指導専門家がほぼ最適手工芸政策である対話政策の模倣学習戦略について述べる。
これらの戦略を,q-learningとactor-criticに基づく最先端強化学習手法に取り入れる。
特に,学習方針と専門家のシームレスなハイブリッド化を可能にするランダム化探索政策を提案する。
私たちの実験では、ハイブリダイゼーション戦略がいくつかのベースラインを上回っており、実際の人間に直面すると学習を加速できることを示した。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Few-Shot Structured Policy Learning for Multi-Domain and Multi-Task
Dialogues [0.716879432974126]
グラフニューラルネットワーク(GNN)は、シミュレーション専門家から学ぶ際に、わずか50の対話で80%以上の成功率に達することで、顕著な優位性を示している。
我々は,対話フレームワークにおける人的データ,シミュレータ,自動評価器のギャップを埋めることに,今後の研究努力を集中させることを提案する。
論文 参考訳(メタデータ) (2023-02-22T08:18:49Z) - Two Approaches to Building Collaborative, Task-Oriented Dialog Agents
through Self-Play [18.88705140683795]
タスク指向のダイアログシステムは、Wizard-of-Ozインタフェースから収集されたような人間/人間のダイアログに基づいて訓練されることが多い。
本稿では,API環境を自律的に探索するセルフプレイを通じて,エージェントボットとユーザボットを訓練する2つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-09-20T14:52:25Z) - Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。
本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文 参考訳(メタデータ) (2021-08-13T03:14:43Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。
シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文 参考訳(メタデータ) (2020-07-07T11:55:27Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。