論文の概要: One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL
- arxiv url: http://arxiv.org/abs/2010.14484v2
- Date: Mon, 7 Dec 2020 22:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:32:31.768411
- Title: One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL
- Title(参考訳): 1つの解決策:構造化MaxEnt RLによるFew-Shot外挿
- Authors: Saurabh Kumar, Aviral Kumar, Sergey Levine, Chelsea Finn
- Abstract要約: 課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
- 参考スコア(独自算出の注目度): 142.36621929739707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning algorithms can learn effective policies for
complex tasks, these policies are often brittle to even minor task variations,
especially when variations are not explicitly provided during training. One
natural approach to this problem is to train agents with manually specified
variation in the training task or environment. However, this may be infeasible
in practical situations, either because making perturbations is not possible,
or because it is unclear how to choose suitable perturbation strategies without
sacrificing performance. The key insight of this work is that learning diverse
behaviors for accomplishing a task can directly lead to behavior that
generalizes to varying environments, without needing to perform explicit
perturbations during training. By identifying multiple solutions for the task
in a single environment during training, our approach can generalize to new
situations by abandoning solutions that are no longer effective and adopting
those that are. We theoretically characterize a robustness set of environments
that arises from our algorithm and empirically find that our diversity-driven
approach can extrapolate to various changes in the environment and task.
- Abstract(参考訳): 強化学習アルゴリズムは複雑なタスクに対する効果的なポリシーを学習することができるが、これらのポリシーは、特にトレーニング中に明らかにバリエーションが提供されない場合に、小さなタスクのバリエーションに対しても脆弱であることが多い。
この問題に対する自然なアプローチの1つは、トレーニングタスクや環境に手動で特定のバリエーションを持つエージェントを訓練することだ。
しかし、摂動が不可能であることや、性能を犠牲にすることなく適切な摂動戦略を選択する方法が不明確であることから、実際の状況では実現できない可能性がある。
この研究の重要な洞察は、タスクを達成するための多様な行動を学ぶことは、トレーニング中に明示的な摂動を行うことなく、様々な環境に一般化する行動に直接導くことができるということである。
トレーニング中にタスクの複数のソリューションを1つの環境で識別することで、このアプローチは、もはや効果のないソリューションを捨て、それを採用することによって、新しい状況に一般化することができます。
理論的には、アルゴリズムから生じる環境のロバスト性セットを特徴付け、我々の多様性駆動アプローチが環境やタスクのさまざまな変化に外挿できることを実証的に見出します。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Diversity for Contingency: Learning Diverse Behaviors for Efficient
Adaptation and Transfer [0.0]
与えられたタスクのすべての可能な解を見つけるための簡単な方法を提案する。
従来の手法とは異なり,本手法では新規性検出のための新たなモデルを学ぶ必要はない。
論文 参考訳(メタデータ) (2023-10-11T13:39:35Z) - Stabilizing Unsupervised Environment Design with a Learned Adversary [28.426666219969555]
汎用エージェントの訓練における主な課題は、環境変動に対する広範な一般化と堅牢性を促進する訓練タスクの設計である。
教師なし環境設計(UED)の先駆的なアプローチは、強化学習を使用して教師の政策を訓練し、ゼロからタスクを設計するPAIREDである。
PAIREDは理論上の強い支持にもかかわらず、実用性能を阻害する様々な課題に悩まされている。
我々は、PAIREDが最先端の手法に適合または超えることを可能にし、いくつかの確立された手続き的環境において堅牢なエージェントを生産する。
論文 参考訳(メタデータ) (2023-08-21T15:42:56Z) - Intrinsically Motivated Hierarchical Policy Learning in Multi-objective
Markov Decision Processes [15.50007257943931]
本稿では,この制限に対処するために,本質的な2相強化学習法を提案する。
提案手法は, 動的ロボット環境において, 最先端の多目的強化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T02:10:45Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。