論文の概要: Robust Decision-Focused Learning for Reward Transfer
- arxiv url: http://arxiv.org/abs/2304.03365v1
- Date: Thu, 6 Apr 2023 20:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:48:30.987062
- Title: Robust Decision-Focused Learning for Reward Transfer
- Title(参考訳): 逆移動のためのロバスト決定型学習
- Authors: Abhishek Sharma, Sonali Parbhoo, Omer Gottesman, Finale Doshi-Velez
- Abstract要約: 本研究では,報酬関数の変化に頑健なモデルを同時に学習しながら,期待したリターンを最大化するモデルを学習する,堅牢な決定中心(RDF)アルゴリズムを開発する。
本研究では, RDF による報酬関数の変化に対する DF の頑健性は, エージェントが得られる全体的なリターンを低下させることなく著しく向上する, 様々な玩具の例と医療シミュレータについて示す。
- 参考スコア(独自算出の注目度): 34.26337766842316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision-focused (DF) model-based reinforcement learning has recently been
introduced as a powerful algorithm which can focus on learning the MDP dynamics
which are most relevant for obtaining high rewards. While this approach
increases the performance of agents by focusing the learning towards optimizing
for the reward directly, it does so by learning less accurate dynamics (from a
MLE standpoint), and may thus be brittle to changes in the reward function. In
this work, we develop the robust decision-focused (RDF) algorithm which
leverages the non-identifiability of DF solutions to learn models which
maximize expected returns while simultaneously learning models which are robust
to changes in the reward function. We demonstrate on a variety of toy example
and healthcare simulators that RDF significantly increases the robustness of DF
to changes in the reward function, without decreasing the overall return the
agent obtains.
- Abstract(参考訳): 意思決定型モデルに基づく強化学習(DF)は近年,高い報酬を得る上で最も有効なMDPダイナミクスの学習に集中できる強力なアルゴリズムとして導入されている。
このアプローチは報酬の最適化に学習を集中させることでエージェントのパフォーマンスを高めるが、(mleの観点から)より正確なダイナミクスを学習することで、報酬関数の変化に対して脆弱になる可能性がある。
本研究では,dfソリューションの非識別性を活用したロバスト決定焦点(rdf)アルゴリズムを開発し,報奨関数の変化にロバストなモデルを同時に学習しながら,期待帰納を最大化するモデルを学習する。
本研究では, RDF による報酬関数の変化に対する DF の頑健性は, エージェントが得られる全体的なリターンを低下させることなく著しく向上する, 様々な玩具の例と医療シミュレータについて示す。
関連論文リスト
- MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - On the Robustness of Decision-Focused Learning [0.0]
決定焦点学習(Decision-Focused Learning, DFL)は、機械学習(ML)モデルを訓練し、不完全な最適化問題の欠落パラメータを予測するための新興学習パラダイムである。
DFLは、予測と最適化タスクを統合することで、エンドツーエンドシステムでMLモデルをトレーニングし、トレーニングとテストの目的の整合性を向上させる。
論文 参考訳(メタデータ) (2023-11-28T04:34:04Z) - Decision Stacks: Flexible Reinforcement Learning via Modular Generative
Models [37.79386205079626]
Decision Stacksは、ゴール条件付きポリシーエージェントを3つの生成モジュールに分解する生成フレームワークである。
これらのモジュールは、教師の強制によって並列に学習できる独立した生成モデルを通じて、観察、報酬、行動の時間的進化をシミュレートする。
我々のフレームワークは、アーキテクチャバイアス、最適化目標とダイナミクス、ドメイン間の転送可能性、推論速度といった重要な要素を考慮するために、個々のモジュールを設計する際の表現性と柔軟性の両方を保証します。
論文 参考訳(メタデータ) (2023-06-09T20:52:16Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Improved Adversarial Training via Learned Optimizer [101.38877975769198]
対戦型トレーニングモデルの堅牢性を改善するための枠組みを提案する。
共学習のパラメータモデルの重み付けにより、提案するフレームワークは、更新方向に対するロバスト性とステップの適応性を一貫して改善する。
論文 参考訳(メタデータ) (2020-04-25T20:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。