論文の概要: Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness
- arxiv url: http://arxiv.org/abs/2004.09731v1
- Date: Tue, 21 Apr 2020 03:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 06:48:31.894943
- Title: Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness
- Title(参考訳): 対向エージェント意識をもつ目標指向対話政策の学習
- Authors: Zheng Zhang, Lizi Liao, Xiaoyan Zhu, Tat-Seng Chua, Zitao Liu, Yan
Huang, Minlie Huang
- Abstract要約: 本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。
我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
- 参考スコア(独自算出の注目度): 116.804536884437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing approaches for goal-oriented dialogue policy learning used
reinforcement learning, which focuses on the target agent policy and simply
treat the opposite agent policy as part of the environment. While in real-world
scenarios, the behavior of an opposite agent often exhibits certain patterns or
underlies hidden policies, which can be inferred and utilized by the target
agent to facilitate its own decision making. This strategy is common in human
mental simulation by first imaging a specific action and the probable results
before really acting it. We therefore propose an opposite behavior aware
framework for policy learning in goal-oriented dialogues. We estimate the
opposite agent's policy from its behavior and use this estimation to improve
the target agent by regarding it as part of the target policy. We evaluate our
model on both cooperative and competitive dialogue tasks, showing superior
performance over state-of-the-art baselines.
- Abstract(参考訳): 目標指向対話政策学習の既存のアプローチは強化学習を用いており、これはターゲットエージェントポリシーに焦点をあて、相手エージェントポリシーを環境の一部として単純に扱う。
現実のシナリオでは、相手エージェントの振る舞いは特定のパターンや隠されたポリシーを示すことが多く、ターゲットエージェントによって推論され、利用され、独自の意思決定を促進することができる。
この戦略は、まず特定の行動と、実際に行動する前に起こりうる結果をイメージングすることで、人間の精神シミュレーションにおいて一般的である。
そこで我々は,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。
我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
我々は,協調的・競合的な対話課題におけるモデルの評価を行い,最先端のベースラインよりも優れた性能を示す。
関連論文リスト
- Learning Control Policies for Variable Objectives from Offline Data [2.7174376960271154]
可変客観ポリシー(VOP)と呼ばれるモデルに基づくポリシー探索手法の概念拡張を導入する。
ポリシーの入力として渡された目的を変更することで、ユーザはその動作を調整する自由を得たり、実行時に最適化目標を再バランスさせたりすることができる。
論文 参考訳(メタデータ) (2023-08-11T13:33:59Z) - On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文 参考訳(メタデータ) (2023-05-28T03:59:37Z) - Imitating Opponent to Win: Adversarial Policy Imitation Learning in
Two-player Competitive Games [0.0]
敵エージェントが採用する敵ポリシーは、ターゲットRLエージェントに影響を及ぼし、マルチエージェント環境では性能が良くない。
既存の研究では、被害者エージェントと対話した経験に基づいて、敵の政策を直接訓練している。
我々は、この欠点を克服する、新しい効果的な対人政策学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-30T18:32:02Z) - Interacting with Non-Cooperative User: A New Paradigm for Proactive
Dialogue Policy [83.61404191470126]
インタラクティブな環境下でプロアクティブなポリシーを学習できるI-Proという新しいソリューションを提案する。
具体的には,4つの要因からなる学習目標重みを通じてトレードオフを学習する。
実験の結果,I-Proは,有効性と解釈性において,ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-04-07T14:11:31Z) - Influencing Long-Term Behavior in Multiagent Reinforcement Learning [59.98329270954098]
時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。
具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。
我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
論文 参考訳(メタデータ) (2022-03-07T17:32:35Z) - Contrastive Explanations for Comparing Preferences of Reinforcement
Learning Agents [16.605295052893986]
報酬関数が単純でない複雑なタスクでは、報酬関数に対する個々の目的の影響を調整することで、多重強化学習(RL)ポリシーを訓練することができる。
この研究では、同じタスクで訓練された2つのポリシーの振る舞いを、目的において異なる好みで比較します。
本稿では,2つのRLエージェントの嗜好の相反する結果の相違から生じる行動の差異を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:57:57Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Informative Policy Representations in Multi-Agent Reinforcement Learning
via Joint-Action Distributions [17.129962954873587]
多エージェント強化学習において、他のエージェントの行動によって引き起こされる環境の非定常性は、エージェントが独立して良い政策を学ぶのに重大な困難を生じさせた。
本稿では,インタラクションでサンプリングされた協調行動分布を用いて,他のエージェントのポリシーの表現を学習する一般的な方法を提案する。
提案手法は,未確認エージェントに直面する場合のマルチエージェントタスクにおいて,既存の作業よりも優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-10T15:09:33Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。