論文の概要: Variational Reward Estimator Bottleneck: Learning Robust Reward
Estimator for Multi-Domain Task-Oriented Dialog
- arxiv url: http://arxiv.org/abs/2006.00417v1
- Date: Sun, 31 May 2020 02:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:13:35.783845
- Title: Variational Reward Estimator Bottleneck: Learning Robust Reward
Estimator for Multi-Domain Task-Oriented Dialog
- Title(参考訳): 可変リワード推定器ボトルネック:マルチドメインタスク指向ダイアログのためのロバストリワード推定器の学習
- Authors: Jeiyoon Park, Chanhee Lee, Kuekyeng Kim, Heuiseok Lim
- Abstract要約: 変分残差推定器(VRB)は,入力と報奨推定器の間の非生産的情報フローの抑制を目的とした効果的な正規化手法である。
VRBは、相互情報のボトルネックを利用して、差別的な特徴を捉えることに焦点を当てている。
マルチドメインタスク指向ダイアログデータセットの実証結果から,VRBが従来の手法よりも大幅に優れていたことが確認された。
- 参考スコア(独自算出の注目度): 4.839823737587605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its notable success in adversarial learning approaches to
multi-domain task-oriented dialog system, training the dialog policy via
adversarial inverse reinforcement learning often fails to balance the
performance of the policy generator and reward estimator. During optimization,
the reward estimator often overwhelms the policy generator and produces
excessively uninformative gradients. We proposes the Variational Reward
estimator Bottleneck (VRB), which is an effective regularization method that
aims to constrain unproductive information flows between inputs and the reward
estimator. The VRB focuses on capturing discriminative features, by exploiting
information bottleneck on mutual information. Empirical results on a
multi-domain task-oriented dialog dataset demonstrate that the VRB
significantly outperforms previous methods.
- Abstract(参考訳): マルチドメインタスク指向ダイアログシステムに対する対人学習アプローチの成功にもかかわらず、逆逆強化学習による対話ポリシーの訓練は、しばしばポリシー生成器と報酬推定器のパフォーマンスのバランスが取れない。
最適化の間、報酬推定器はしばしばポリシージェネレータを圧倒し、過剰に不均一な勾配を生成する。
本研究では,入力と報酬推定器間の非生産的情報フローを制約する効果的な正規化手法である変分報酬推定ボトルネック(vrb)を提案する。
VRBは、相互情報のボトルネックを利用して差別的特徴を捉えることに焦点を当てている。
マルチドメインタスク指向のダイアログデータセットにおける実験結果から,VRBが従来の手法よりも大幅に優れていることが示された。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。
本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T02:38:35Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Variance-Optimal Augmentation Logging for Counterfactual Evaluation in
Contextual Bandits [25.153656462604268]
オフラインのA/Bテストと反ファクトラーニングの手法は、検索システムやレコメンデーションシステムに急速に採用されている。
これらの手法で一般的に使用される対物推定器は、ログポリシが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性がある。
本稿では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するための,MVAL(Minimum Variance Augmentation Logging)を提案する。
論文 参考訳(メタデータ) (2022-02-03T17:37:11Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。