論文の概要: No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery
- arxiv url: http://arxiv.org/abs/2408.15099v3
- Date: Tue, 29 Oct 2024 18:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 04:52:58.146805
- Title: No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery
- Title(参考訳): No Regrets: カリキュラム発見のためのRegret近似の調査と改善
- Authors: Alexander Rutherford, Michael Beukman, Timon Willi, Bruno Lacerda, Nick Hawes, Jakob Foerster,
- Abstract要約: 非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
- 参考スコア(独自算出の注目度): 53.08822154199948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What data or environments to use for training to improve downstream performance is a longstanding and very topical question in reinforcement learning. In particular, Unsupervised Environment Design (UED) methods have gained recent attention as their adaptive curricula promise to enable agents to be robust to in- and out-of-distribution tasks. This work investigates how existing UED methods select training environments, focusing on task prioritisation metrics. Surprisingly, despite methods aiming to maximise regret in theory, the practical approximations do not correlate with regret but with success rate. As a result, a significant portion of an agent's experience comes from environments it has already mastered, offering little to no contribution toward enhancing its abilities. Put differently, current methods fail to predict intuitive measures of ``learnability.'' Specifically, they are unable to consistently identify those scenarios that the agent can sometimes solve, but not always. Based on our analysis, we develop a method that directly trains on scenarios with high learnability. This simple and intuitive approach outperforms existing UED methods in several binary-outcome environments, including the standard domain of Minigrid and a novel setting closely inspired by a real-world robotics problem. We further introduce a new adversarial evaluation procedure for directly measuring robustness, closely mirroring the conditional value at risk (CVaR). We open-source all our code and present visualisations of final policies here: https://github.com/amacrutherford/sampling-for-learnability.
- Abstract(参考訳): 下流のパフォーマンスを改善するためにトレーニングに使用するデータや環境は、強化学習において長く、非常にトピックな問題である。
特に、非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
驚くべきことに、理論的に後悔を最大化しようとする手法にもかかわらず、現実的な近似は後悔と相関せず、成功率と相関する。
その結果、エージェントの経験のかなりの部分は、既に習得した環境から来ており、その能力向上への貢献はほとんど、あるいは全く提供されない。
別の言い方をすれば、現在のメソッドは ``learnability' の直感的な測度を予測できない。
特に、エージェントが時折解決できるシナリオを常に識別することはできないが、常にではない。
そこで本研究では,学習性の高いシナリオを直接学習する手法を開発した。
このシンプルで直感的なアプローチは、Minigridの標準ドメインや、現実世界のロボット工学の問題に密接に影響された新しい設定など、いくつかのバイナリアウトカム環境で既存のUEDメソッドよりも優れています。
さらに,リスク条件値(CVaR)を忠実に反映し,ロバスト性を直接測定する新たな逆評価手法を導入する。
すべてのコードをオープンソースにして、最終ポリシーの視覚化を以下に公開しています。
関連論文リスト
- Perception Matters: Enhancing Embodied AI with Uncertainty-Aware Semantic Segmentation [24.32551050538683]
Embodied AIは、探索されていない環境での行動に大きな進歩を遂げた。
我々は、日付付き知覚モデルに焦点をあて、時間的集約を無視し、地上の真実からテスト時にノイズの多い知覚へと直接移行する。
本研究は,アグリゲーション間の知覚確率と不確かさを校正し,決定を下すことによって,同定された問題に対処する。
論文 参考訳(メタデータ) (2024-08-05T08:14:28Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Online Continual Learning For Interactive Instruction Following Agents [20.100312650193228]
このような学習シナリオは,ロボットエージェントが世界を探索し,知覚する上で,継続的に世界を学ぶことが求められているため,現実的ではない,と我々は主張する。
本研究では,新しい行動学習と新しい環境学習という,エンボディエージェントのための2つの連続学習環境を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:33:48Z) - Robust Visual Imitation Learning with Inverse Dynamics Representations [32.806294517277976]
我々は,専門家環境と学習環境を整合させるために,逆ダイナミクス状態表現学習目標を開発する。
抽象状態表現を用いて、行動データと専門家データとの類似性を徹底的に測定する効果的な報酬関数を設計する。
提案手法は,ほとんどの環境においてほぼ熟練した性能を実現し,最先端のビジュアルIL法やロバストIL法を著しく上回っている。
論文 参考訳(メタデータ) (2023-10-22T11:47:35Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。