Fugu-MT 論文翻訳(概要): Diluted Near-Optimal Expert Demonstrations for Guiding Dialogue Stochastic Policy Optimisation

論文の概要: Diluted Near-Optimal Expert Demonstrations for Guiding Dialogue Stochastic Policy Optimisation

arxiv url: http://arxiv.org/abs/2012.04687v1
Date: Wed, 25 Nov 2020 15:00:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-21 01:44:57.873182
Title: Diluted Near-Optimal Expert Demonstrations for Guiding Dialogue Stochastic Policy Optimisation
Title（参考訳）: 対話確率的ポリシー最適化のための希薄な準最適専門家デモ
Authors: Thibault Cordier, Tanguy Urvoy, Lina M. Rojas-Barahona, Fabrice Lef\`evre
Abstract要約: 学習対話エージェントは、人間対人間の会話からその振る舞いを推測することができる。学習プロセスを高速化する一つの解決策は、専門家の助けを借りてエージェントの探索を導くことである。我々は,指導専門家がほぼ最適手工芸政策である対話政策の模倣学習戦略をいくつか提示する。
参考スコア（独自算出の注目度）: 0.716879432974126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A learning dialogue agent can infer its behaviour from interactions with the users. These interactions can be taken from either human-to-human or human-machine conversations. However, human interactions are scarce and costly, making learning from few interactions essential. One solution to speedup the learning process is to guide the agent's exploration with the help of an expert. We present in this paper several imitation learning strategies for dialogue policy where the guiding expert is a near-optimal handcrafted policy. We incorporate these strategies with state-of-the-art reinforcement learning methods based on Q-learning and actor-critic. We notably propose a randomised exploration policy which allows for a seamless hybridisation of the learned policy and the expert. Our experiments show that our hybridisation strategy outperforms several baselines, and that it can accelerate the learning when facing real humans.
Abstract（参考訳）: 学習対話エージェントは、ユーザとのインタラクションからその動作を推測することができる。これらの相互作用は、人間と機械の会話から取ることができる。しかし、人間の相互作用は乏しくコストがかかるため、ほとんど相互作用から学ぶことは不可欠である。学習プロセスを高速化する一つの解決策は、専門家の助けを借りてエージェントの探索を導くことである。本稿では,指導専門家がほぼ最適手工芸政策である対話政策の模倣学習戦略について述べる。これらの戦略を,q-learningとactor-criticに基づく最先端強化学習手法に取り入れる。特に,学習方針と専門家のシームレスなハイブリッド化を可能にするランダム化探索政策を提案する。私たちの実験では、ハイブリダイゼーション戦略がいくつかのベースラインを上回っており、実際の人間に直面すると学習を加速できることを示した。

関連論文リスト

Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-07T21:37:51Z)
AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文参考訳（メタデータ） (2024-03-19T15:41:39Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Few-Shot Structured Policy Learning for Multi-Domain and Multi-Task Dialogues [0.716879432974126]
グラフニューラルネットワーク(GNN)は、シミュレーション専門家から学ぶ際に、わずか50の対話で80%以上の成功率に達することで、顕著な優位性を示している。我々は,対話フレームワークにおける人的データ,シミュレータ,自動評価器のギャップを埋めることに,今後の研究努力を集中させることを提案する。
論文参考訳（メタデータ） (2023-02-22T08:18:49Z)
Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文参考訳（メタデータ） (2021-08-13T03:14:43Z)
Rethinking Supervised Learning and Reinforcement Learning in Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文参考訳（メタデータ） (2020-09-21T12:04:18Z)
Deep Reinforcement Learning with Interactive Feedback in a Human-Robot Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文参考訳（メタデータ） (2020-07-07T11:55:27Z)
Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。敵の訓練を2つの段階に分割することを提案する。まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文参考訳（メタデータ） (2020-04-07T11:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。