論文の概要: Refining Minimax Regret for Unsupervised Environment Design
- arxiv url: http://arxiv.org/abs/2402.12284v2
- Date: Sat, 8 Jun 2024 10:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:23:27.699270
- Title: Refining Minimax Regret for Unsupervised Environment Design
- Title(参考訳): 教師なし環境設計のためのミニマックスレギュレータの精製
- Authors: Michael Beukman, Samuel Coward, Michael Matthews, Mattie Fellows, Minqi Jiang, Michael Dennis, Jakob Foerster,
- Abstract要約: 我々は,ミニマックス後悔目標の洗練であるレベル・パーフェクトMMRを導入する。
我々は,BLP政策がすべてのレベルにおける完全ベイズ政策と一貫して振る舞うことを示す。
また、収束時にBLPポリシーをもたらすアルゴリズムReMiDiを導入する。
- 参考スコア(独自算出の注目度): 15.281908507614512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In unsupervised environment design, reinforcement learning agents are trained on environment configurations (levels) generated by an adversary that maximises some objective. Regret is a commonly used objective that theoretically results in a minimax regret (MMR) policy with desirable robustness guarantees; in particular, the agent's maximum regret is bounded. However, once the agent reaches this regret bound on all levels, the adversary will only sample levels where regret cannot be further reduced. Although there are possible performance improvements to be made outside of these regret-maximising levels, learning stagnates. In this work, we introduce Bayesian level-perfect MMR (BLP), a refinement of the minimax regret objective that overcomes this limitation. We formally show that solving for this objective results in a subset of MMR policies, and that BLP policies act consistently with a Perfect Bayesian policy over all levels. We further introduce an algorithm, ReMiDi, that results in a BLP policy at convergence. We empirically demonstrate that training on levels from a minimax regret adversary causes learning to prematurely stagnate, but that ReMiDi continues learning.
- Abstract(参考訳): 教師なし環境設計において、強化学習エージェントは、ある目的を最大化する敵が生成する環境構成(レベル)に基づいて訓練される。
レグレトは理論上、望ましい堅牢性を保証するミニマックス後悔(MMR)ポリシーをもたらす、一般的に用いられる目的である。
しかし、エージェントが全てのレベルに制限されたこの後悔点に達すると、敵は後悔点を更に減らすことができないレベルだけをサンプリングする。
これらの後悔を最大化するレベル以外のパフォーマンス改善は可能だが、学習は停滞している。
本稿では,この制限を克服したミニマックス後悔目標の洗練であるベイズレベル完全MMR(BLP)を紹介する。
我々は,この目的の解決がMMR政策のサブセットとなり,BLP政策がすべてのレベルにおける完全ベイズ政策と一貫して作用することを示す。
さらに、収束時にBLPポリシーをもたらすアルゴリズムReMiDiを導入する。
我々は,ミニマックスの反抗から学習が早期に停滞する原因となることを実証的に実証するが,ReMiDiは学習を続ける。
関連論文リスト
- Information-Theoretic Minimax Regret Bounds for Reinforcement Learning based on Duality [33.907054045921306]
エージェントの目的が堅牢なポリシーを見つけることにある未知の環境で行動するエージェントについて検討する。
我々は,異なる環境パラメータに対する最大後悔を最小化するエージェントについて検討し,ミニマックス後悔の研究につながった。
本研究はマルコフ決定過程におけるミニマックス後悔に対する情報理論的境界の導出に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T13:45:02Z) - Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Do LLM Agents Have Regret? A Case Study in Online Learning and Games [30.377709765198592]
大規模言語モデル(LLM)は(対話的な)意思決定にますます採用されている。
オンライン学習とゲーム理論のベンチマーク決定設定において,それらの相互作用について検討する。
本稿では,教師付きプレトレーニングの損失とは対照的に,教師付き行動のラベルを必要としない新しいインフントレーニングの損失を提案する。
論文 参考訳(メタデータ) (2024-03-25T15:04:11Z) - Emergency action termination for immediate reaction in hierarchical
reinforcement learning [8.637919344171255]
本研究では,高レベル行動(低レベル目標)の有効性を常に高いレベルで検証する手法を提案する。
アクション、すなわち低レベルのゴールが不十分になった場合、より適切なアクションに置き換えられる。
このようにして、高速トレーニングである階層的RLと、即時反応性であるフラットなRLの利点を組み合わせる。
論文 参考訳(メタデータ) (2022-11-11T16:56:02Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Robust Reinforcement Learning Under Minimax Regret for Green Security [50.03819244940543]
グリーン・セキュリティ・ドメインは、密猟者、違法なロガー、違法な漁師の敵対行動の不確実さに直面してパトロールを計画する被告を特徴としている。
文献では検討されていないミニマックスの後悔基準に従って,グリーンセキュリティのための堅牢なシーケンシャルパトロール計画に着目する。
対戦行動のパラメータ値を制御するディフェンダーと自然のゲームとしてこの問題を定式化し,ロバストなポリシーを見つけるアルゴリズムMIRRORを設計する。
論文 参考訳(メタデータ) (2021-06-15T20:11:12Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Learning from Label Proportions: A Mutual Contamination Framework [19.772652254660674]
ラベル比例(LLP)からの学習は、未ラベルのトレーニングインスタンスをバッグにグループ化し、各バッグがそのバッグに発生する各クラスの割合で注釈付けする、分類のための弱い教師付き設定である。
本研究は, 相互汚染モデル (MCM) の観点からLPPを仮定し, この2つの課題に対処するものである。
本プロセスでは,非イドサンプリング計画の下での非バイアス損失や一般化誤差境界を含む,MCMの新たな技術的結果を確立する。
論文 参考訳(メタデータ) (2020-06-12T17:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。