論文の概要: Tackling the Zero-Shot Reinforcement Learning Loss Directly
- arxiv url: http://arxiv.org/abs/2502.10792v1
- Date: Sat, 15 Feb 2025 13:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:09:56.724386
- Title: Tackling the Zero-Shot Reinforcement Learning Loss Directly
- Title(参考訳): ゼロショット強化学習損失の直接処理
- Authors: Yann Ollivier,
- Abstract要約: ゼロショットRL損失を直接最適化できることを示す。
驚くべきことに、ホワイトノイズはVISR[HDB+19]とほぼ同じ目的を異なるアプローチで導く。
- 参考スコア(独自算出の注目度): 9.228204655806236
- License:
- Abstract: Zero-shot reinforcement learning (RL) methods aim at instantly producing a behavior for an RL task in a given environment, from a description of the reward function. These methods are usually tested by evaluating their average performance on a series of downstream tasks. Yet they cannot be trained directly for that objective, unless the distribution of downstream tasks is known. Existing approaches either use other learning criteria [BBQ+ 18, TRO23, TO21, HDB+ 19], or explicitly set a prior on downstream tasks, such as reward functions given by a random neural network [FPAL24]. Here we prove that the zero-shot RL loss can be optimized directly, for a range of non-informative priors such as white noise rewards, temporally smooth rewards, ``scattered'' sparse rewards, or a combination of those. Thus, it is possible to learn the optimal zero-shot features algorithmically, for a wide mixture of priors. Surprisingly, the white noise prior leads to an objective almost identical to the one in VISR [HDB+19], via a different approach. This shows that some seemingly arbitrary choices in VISR, such as Von Mises--Fisher distributions, do maximize downstream performance. This also suggests more efficient ways to tackle the VISR objective. Finally, we discuss some consequences and limitations of the zero-shot RL objective, such as its tendency to produce narrow optimal features if only using Gaussian dense reward priors.
- Abstract(参考訳): ゼロショット強化学習(ゼロショット強化学習、Zero-shot reinforcement learning、RL)は、与えられた環境におけるRLタスクの振る舞いを、報酬関数の記述から即座に生成することを目的としている。
これらの手法は通常、一連の下流タスクで平均性能を評価することによってテストされる。
しかし、下流タスクの分布が分かっていなければ、その目的のために直接訓練することはできない。
既存のアプローチでは、他の学習基準 [BBQ+18, TRO23, TO21, HDB+19] を使用するか、ランダムニューラルネットワーク [FPAL24] によって与えられる報酬関数など、下流タスクの事前設定を明示的に行う。
ここでは, ホワイトノイズ報酬, 時間的スムーズな報酬, ` `scattered'' スパース報酬, あるいはそれらを組み合わせて, ゼロショットRL損失を直接最適化できることを示す。
したがって、様々な事前混合に対して最適なゼロショット特徴をアルゴリズムで学習することが可能である。
驚くべきことに、ホワイトノイズはVISR[HDB+19]とほぼ同じ目的を異なるアプローチで導く。
これは、Von Mises-Fisher分布のようなVISRの一見任意の選択が、下流のパフォーマンスを最大化することを示している。
このことは、VISRの目的に対処するより効率的な方法も示唆している。
最後に,ゼロショットRLの目的のいくつかの結果と限界について論じる。
関連論文リスト
- Unsupervised Zero-Shot Reinforcement Learning via Functional Reward
Encodings [107.1837163643886]
本稿では、このゼロショットRL問題に対する汎用的でスケーラブルな解として、関数型報酬符号化(FRE)を提案する。
我々の主な考え方は、任意のタスクの関数表現を、状態逆サンプルを符号化することで学習することである。
多様なランダムな非教師付き報酬関数で訓練されたFREエージェントが、新しいタスクを解くために一般化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-02-27T01:59:02Z) - To the Max: Reinventing Reward in Reinforcement Learning [1.5498250598583487]
強化学習(RL)では、異なる報酬関数が同じ最適ポリシーを定義することができるが、結果として学習性能は大きく異なる。
我々は、エージェントが累積報酬ではなく最大値を最適化するtextitmax-reward RLを紹介した。
実験では,Gymnasium-Roboticsの2つの目標到達環境における最大回帰RLアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-02-02T12:29:18Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - You Can't Count on Luck: Why Decision Transformers Fail in Stochastic
Environments [31.117949189062895]
予測タスクへの強化学習を減らし、教師付き学習(RvS)によって解決する決定変換器は、その単純さ、ハイパースに対する堅牢性、オフラインタスクにおける全体的なパフォーマンスの強化などにより人気を博している。
しかし、単にモデルに所望のリターンを条件付け、予測されたアクションを取るだけで、運の悪さによるリターンをもたらす環境において、劇的に失敗する可能性がある。
本稿では,環境におけるRvSアプローチの限界について述べ,その解決策を提案する。
従来の手法のように単一軌道の戻りを単に条件づけるのではなく、提案手法であるESPERはクラスタ・トラジェクトリと条件を学ぶ。
論文 参考訳(メタデータ) (2022-05-31T17:15:44Z) - Upside-Down Reinforcement Learning Can Diverge in Stochastic
Environments With Episodic Resets [4.126347193869613]
Upside-Down Reinforcement Learning (UDRL)は、価値関数を必要としない問題を解決するためのアプローチである。
Goal-Conditional Supervised Learning (GCSL)は目標達成性能の低い境界を最適化した。
これにより、任意の環境における最適ポリシーへの保証された収束を享受できるという期待が高まる。
論文 参考訳(メタデータ) (2022-05-13T12:43:25Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Unbiased Methods for Multi-Goal Reinforcement Learning [13.807859854345834]
マルチゴール強化学習では、各ゴールに対する報酬は希少であり、ゴールの小さな近傍に位置する。
我々は,HER(Hindsight Experience Replay)が,チャンシーの結果を過大評価することにより,低リターンポリシーに収束できることを示す。
我々は、このような無限にスパースな報酬を処理し、おもちゃの環境でそれらをテストできる、偏見のない深いQ-ラーニングとアクター-クリティカルなアルゴリズムを導入します。
論文 参考訳(メタデータ) (2021-06-16T15:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。