論文の概要: SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.02013v2
- Date: Thu, 29 Feb 2024 03:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:22:42.240948
- Title: SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning
- Title(参考訳): SMORE:オフラインゴールコンディション強化学習のためのスコアモデル
- Authors: Harshit Sikchi, Rohan Chitnis, Ahmed Touati, Alborz Geramifard, Amy
Zhang, Scott Niekum
- Abstract要約: オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 33.125187822259186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Goal-Conditioned Reinforcement Learning (GCRL) is tasked with
learning to achieve multiple goals in an environment purely from offline
datasets using sparse reward functions. Offline GCRL is pivotal for developing
generalist agents capable of leveraging pre-existing datasets to learn diverse
and reusable skills without hand-engineering reward functions. However,
contemporary approaches to GCRL based on supervised learning and contrastive
learning are often suboptimal in the offline setting. An alternative
perspective on GCRL optimizes for occupancy matching, but necessitates learning
a discriminator, which subsequently serves as a pseudo-reward for downstream
RL. Inaccuracies in the learned discriminator can cascade, negatively
influencing the resulting policy. We present a novel approach to GCRL under a
new lens of mixture-distribution matching, leading to our discriminator-free
method: SMORe. The key insight is combining the occupancy matching perspective
of GCRL with a convex dual formulation to derive a learning objective that can
better leverage suboptimal offline data. SMORe learns scores or unnormalized
densities representing the importance of taking an action at a state for
reaching a particular goal. SMORe is principled and our extensive experiments
on the fully offline GCRL benchmark composed of robot manipulation and
locomotion tasks, including high-dimensional observations, show that SMORe can
outperform state-of-the-art baselines by a significant margin.
- Abstract(参考訳): オフライン目標条件強化学習(gcrl)は、スパース報酬関数を使用してオフラインデータセットから純粋に複数の目標を達成するための学習を任務とする。
オフラインGCRLは、既存のデータセットを活用して、手作業による報酬関数なしで、多種多様な再利用可能なスキルを学習できる汎用エージェントを開発する上で重要である。
しかし、教師付き学習とコントラスト学習に基づくGCRLの現代的アプローチは、オフライン環境では、しばしば準最適である。
GCRLに対する別の見方は、占有のマッチングを最適化するが、識別器を学習する必要がある。
学習した判別器の不正確さはカスケードし、その結果のポリシーに悪影響を及ぼす。
我々は, 混合分布マッチングの新たなレンズを用いて, gcrlに対する新しいアプローチを提案する。
重要な洞察は、gcrlの占有者マッチングの観点と凸双対の定式化を組み合わせることで、より最適なオフラインデータを活用する学習目標を導出することである。
SMOREは、特定の目標を達成するための状態においてアクションを取ることの重要性を表すスコアまたは非正規化された密度を学ぶ。
SMOReの原理を定式化し,ロボット操作と移動作業からなる完全オフラインGCRLベンチマークによる広範な実験により,SMOReが最先端のベースラインを著しく上回ることを示す。
関連論文リスト
- Accelerating Goal-Conditioned RL Algorithms and Research [17.155006770675904]
自己指導型目標条件強化学習(GCRL)エージェントは、環境との非構造的相互作用において達成された目標から学習することで、新しい行動を発見する。
これらの手法は、低速環境シミュレーションのデータ不足や安定したアルゴリズムの欠如により、同様の成功は得られていない。
我々は、自制的なGCRLのためのベンチマーク(JaxGCRL)をリリースし、研究者は単一のGPU上で数百万の環境ステップでエージェントを訓練することができる。
論文 参考訳(メタデータ) (2024-08-20T17:58:40Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - What is Essential for Unseen Goal Generalization of Offline
Goal-conditioned RL? [31.202506227437937]
オフラインのゴール条件付きRL(GCRL)は、完全にオフラインのデータセットから汎用エージェントをトレーニングする方法を提供する。
我々は、新しいオフラインGCRL法、Generalizable Offline goAl-condiTioned RL(GOAT)を提案する。
9つの独立した同一分散(IID)タスクと17のOODタスクを含む新しいベンチマークでは、GOATは現在の最先端メソッドを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-05-30T09:26:32Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Improving Zero-shot Generalization in Offline Reinforcement Learning
using Generalized Similarity Functions [34.843526573355746]
強化学習(Reinforcement Learning, RL)エージェントは、複雑な逐次意思決定タスクの解決に広く用いられているが、訓練中に見えないシナリオに一般化することが困難である。
RLにおける一般化のためのオンラインアルゴリズムの性能は、観測間の類似性の評価が不十分なため、オフライン環境では妨げられることを示す。
本稿では, 一般化類似度関数(GSF)と呼ばれる新しい理論的動機付けフレームワークを提案する。このフレームワークは, 競合学習を用いてオフラインのRLエージェントを訓練し, 期待される将来の行動の類似性に基づいて観測を集約する。
論文 参考訳(メタデータ) (2021-11-29T15:42:54Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。