論文の概要: Survival Instinct in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.03286v1
- Date: Mon, 5 Jun 2023 22:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 18:13:18.301862
- Title: Survival Instinct in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における生存意識
- Authors: Anqi Li, Dipendra Misra, Andrey Kolobov, Ching-An Cheng
- Abstract要約: 報酬ラベルをトレーニングしても、オフラインのRLは、優れたパフォーマンスと安全なポリシを生成することができる。
この驚くべき性質は、オフラインアルゴリズムにおける悲観的概念と、一般的なデータ収集手法におけるある種の暗黙的偏見の相互作用に起因することを実証する。
我々の経験的および理論的な結果は、エージェントが不完全な報酬を伴う望ましい行動を学ぶために、不完全なデータカバレッジを意図的にバイアスするRLの新しいパラダイムを示唆している。
- 参考スコア(独自算出の注目度): 23.20452738584554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel observation about the behavior of offline reinforcement
learning (RL) algorithms: on many benchmark datasets, offline RL can produce
well-performing and safe policies even when trained with "wrong" reward labels,
such as those that are zero everywhere or are negatives of the true rewards.
This phenomenon cannot be easily explained by offline RL's return maximization
objective. Moreover, it gives offline RL a degree of robustness that is
uncharacteristic of its online RL counterparts, which are known to be sensitive
to reward design. We demonstrate that this surprising robustness property is
attributable to an interplay between the notion of pessimism in offline RL
algorithms and a certain bias implicit in common data collection practices. As
we prove in this work, pessimism endows the agent with a "survival instinct",
i.e., an incentive to stay within the data support in the long term, while the
limited and biased data coverage further constrains the set of survival
policies. Formally, given a reward class -- which may not even contain the true
reward -- we identify conditions on the training data distribution that enable
offline RL to learn a near-optimal and safe policy from any reward within the
class. We argue that the survival instinct should be taken into account when
interpreting results from existing offline RL benchmarks and when creating
future ones. Our empirical and theoretical results suggest a new paradigm for
RL, whereby an agent is "nudged" to learn a desirable behavior with imperfect
reward but purposely biased data coverage.
- Abstract(参考訳): オフライン強化学習(RL)アルゴリズムの挙動に関する新しい観察結果を示す。多くのベンチマークデータセットにおいて、オフラインRLは、至るところでゼロであるものや真の報酬の負であるものなど、"間違った"報酬ラベルでトレーニングされた場合でも、良好なパフォーマンスと安全なポリシーを生成できる。
この現象はオフラインrlの戻り最大化目標では容易に説明できない。
さらに、オフラインrlには、報酬設計に敏感であることが知られているオンラインrlに特徴的な堅牢さの度合いを与えている。
この驚くべきロバスト性は、オフラインRLアルゴリズムにおける悲観的概念と、一般的なデータ収集の実践において暗黙的な偏見の相互作用に起因することを実証する。
この研究で証明されたように、悲観主義はエージェントを「生存本能(survival instinct)」、すなわち長期的なデータサポートに留まらせるインセンティブで内包し、限られたデータカバレッジと偏りのあるデータカバレッジはサバイバルポリシーのセットをさらに制限する。
形式的には、真の報酬すら含まない報酬クラスが与えられた場合、オフラインのRLがクラス内の報酬からほぼ最適で安全なポリシーを学ぶことができるトレーニングデータ配布の条件を特定します。
我々は、既存のオフラインRLベンチマークの結果を解釈し、将来の結果を作成する際に、生存本能を考慮するべきであると論じる。
我々の経験的および理論的な結果は、エージェントが不完全な報酬を伴う望ましい行動を学ぶために、不完全なデータカバレッジを意図的にバイアスするRLの新しいパラダイムを示唆している。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Align Your Intents: Offline Imitation Learning via Optimal Transport [3.1728695158666396]
模擬エージェントは,専門家の観察からのみ,望ましい行動を学ぶことができることを示す。
AILOT法では,データに空間距離を交互に組み込んだインテントの形で,状態の特殊表現を行う。
AILOTはD4RLベンチマークで最先端のオフライン模倣学習アルゴリズムより優れていることを報告した。
論文 参考訳(メタデータ) (2024-02-20T14:24:00Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning [31.49713012907863]
textbfCalibrated textbfLatent gtextbfUidanctextbfE (CLUE)を導入する。
スパース逆オフラインRLタスク、オフライン模倣学習(IL)タスク、教師なしオフラインRLタスクにおいて、エキスパート主導の本質的な報酬をインスタンス化する。
論文 参考訳(メタデータ) (2023-06-23T09:57:50Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Near Real-World Benchmarks for Offline Reinforcement Learning [26.642722521820467]
本稿では,近世界のベンチマークであるNewRLについて紹介する。
NewRLには、ポリシー検証を目的とした、コントロールされたサイズと追加のテストデータセットを備えた、さまざまなドメインのデータセットが含まれている。
我々は、データセットの報酬の代わりに、ポリシーのパフォーマンスを行動ポリシーの決定論的バージョンと比較するべきだと論じる。
論文 参考訳(メタデータ) (2021-02-01T09:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。