論文の概要: Unbiased Methods for Multi-Goal Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.08863v1
- Date: Wed, 16 Jun 2021 15:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 22:42:47.039563
- Title: Unbiased Methods for Multi-Goal Reinforcement Learning
- Title(参考訳): マルチゴール強化学習のためのアンバイアスド手法
- Authors: L\'eonard Blier and Yann Ollivier
- Abstract要約: マルチゴール強化学習では、各ゴールに対する報酬は希少であり、ゴールの小さな近傍に位置する。
我々は,HER(Hindsight Experience Replay)が,チャンシーの結果を過大評価することにより,低リターンポリシーに収束できることを示す。
我々は、このような無限にスパースな報酬を処理し、おもちゃの環境でそれらをテストできる、偏見のない深いQ-ラーニングとアクター-クリティカルなアルゴリズムを導入します。
- 参考スコア(独自算出の注目度): 13.807859854345834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-goal reinforcement learning (RL) settings, the reward for each goal
is sparse, and located in a small neighborhood of the goal. In large dimension,
the probability of reaching a reward vanishes and the agent receives little
learning signal. Methods such as Hindsight Experience Replay (HER) tackle this
issue by also learning from realized but unplanned-for goals. But HER is known
to introduce bias, and can converge to low-return policies by overestimating
chancy outcomes. First, we vindicate HER by proving that it is actually
unbiased in deterministic environments, such as many optimal control settings.
Next, for stochastic environments in continuous spaces, we tackle sparse
rewards by directly taking the infinitely sparse reward limit. We fully
formalize the problem of multi-goal RL with infinitely sparse Dirac rewards at
each goal. We introduce unbiased deep Q-learning and actor-critic algorithms
that can handle such infinitely sparse rewards, and test them in toy
environments.
- Abstract(参考訳): multi-goal reinforcement learning (rl) の設定では、各目標に対する報酬は乏しく、ゴールの小さな近傍に位置する。
大きな次元では、報酬に達する確率は失われ、エージェントは学習信号をほとんど受け取らない。
hindsight experience replay(her)のような手法は、実現されるが計画されていない目標から学ぶことでこの問題に取り組む。
しかし、彼女はバイアスの導入で知られ、チャンシーの結果を過度に見積もることで、低リターン政策に収束することができる。
まず、HERは、多くの最適制御設定など、決定論的環境において非バイアスであることを示す。
次に、連続空間における確率的環境に対して、無限にスパースな報酬制限を直接受けてスパース報酬に取り組む。
目的ごとのダイラック報酬を無限にスパースしたマルチゴールRLの問題を完全形式化する。
このような無限にスパースな報酬を処理できる偏りのない深いq-learningとアクタ-クリティックアルゴリズムを導入し、おもちゃの環境でテストします。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - $f$-Policy Gradients: A General Framework for Goal Conditioned RL using
$f$-Divergences [44.91973620442546]
本稿では,$f$-Policy Gradientsという新たな探索方法を紹介する。
問題となるグリッドワールドにおける標準ポリシー手法と比較して,$f$-PGの方が優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-10T17:07:05Z) - Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards [101.7246658985579]
ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
多様な報酬の不均一性を多政学的戦略に従って受け入れることを提案する。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA)タスク,制御(移動)タスクに対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-06-07T14:58:15Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - USHER: Unbiased Sampling for Hindsight Experience Replay [12.660090786323067]
報酬の希薄化は強化学習(RL)における長年の課題である
Hindsight Experience Replay (HER)は、ある目標に対して失敗した軌道を他の目標に対して成功した軌道として再利用することでこの問題に対処する。
この戦略は、環境における悪い結果の可能性を過小評価するため、バイアス値関数をもたらすことが知られている。
本稿では,決定論的環境における性能を犠牲にすることなく,この問題に対処する重要度に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-03T20:25:06Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Learning Intrinsic Symbolic Rewards in Reinforcement Learning [7.101885582663675]
低次元のシンボル木の形で高密度報酬を発見する方法を提案する。
得られた高密度報酬は、ベンチマークタスクを解くためのRLポリシーに有効な信号であることを示す。
論文 参考訳(メタデータ) (2020-10-08T00:02:46Z) - Reinforcement Learning with Goal-Distance Gradient [1.370633147306388]
強化学習は通常、エージェントを訓練するために環境のフィードバック報酬を使用する。
現在の手法のほとんどは、スパース報酬や非リワード環境での優れたパフォーマンスを得るのが難しい。
一般環境におけるスパース報酬の問題を解決するために,環境報酬に依存しないモデルフリー手法を提案する。
論文 参考訳(メタデータ) (2020-01-01T02:37:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。