論文の概要: How Far I'll Go: Offline Goal-Conditioned Reinforcement Learning via
$f$-Advantage Regression
- arxiv url: http://arxiv.org/abs/2206.03023v1
- Date: Tue, 7 Jun 2022 05:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:48:43.803355
- Title: How Far I'll Go: Offline Goal-Conditioned Reinforcement Learning via
$f$-Advantage Regression
- Title(参考訳): どこまで進むか:$f$-Advantage Regressionによるオフラインゴール・コンディション強化学習
- Authors: Yecheng Jason Ma, Jason Yan, Dinesh Jayaraman, Osbert Bastani
- Abstract要約: オフライン目標条件強化学習(GCRL)は、純粋にオフラインのデータセットから多様な目標に到達するという形で、汎用的なスキル学習を約束する。
状態占有型マッチングの観点から,新しい回帰型オフラインGCRLアルゴリズムであるGoFARを提案する。
GoFARは後続のレバーベリングを一切必要とせず、その価値とポリシーネットワークに対する非インターリーブな最適化を享受しています。
- 参考スコア(独自算出の注目度): 31.400457068128585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline goal-conditioned reinforcement learning (GCRL) promises
general-purpose skill learning in the form of reaching diverse goals from
purely offline datasets. We propose $\textbf{Go}$al-conditioned
$f$-$\textbf{A}$dvantage $\textbf{R}$egression (GoFAR), a novel
regression-based offline GCRL algorithm derived from a state-occupancy matching
perspective; the key intuition is that the goal-reaching task can be formulated
as a state-occupancy matching problem between a dynamics-abiding imitator agent
and an expert agent that directly teleports to the goal. In contrast to prior
approaches, GoFAR does not require any hindsight relabeling and enjoys
uninterleaved optimization for its value and policy networks. These distinct
features confer GoFAR with much better offline performance and stability as
well as statistical performance guarantee that is unattainable for prior
methods. Furthermore, we demonstrate that GoFAR's training objectives can be
re-purposed to learn an agent-independent goal-conditioned planner from purely
offline source-domain data, which enables zero-shot transfer to new target
domains. Through extensive experiments, we validate GoFAR's effectiveness in
various problem settings and tasks, significantly outperforming prior
state-of-art. Notably, on a real robotic dexterous manipulation task, while no
other method makes meaningful progress, GoFAR acquires complex manipulation
behavior that successfully accomplishes diverse goals.
- Abstract(参考訳): オフライン目標条件強化学習(gcrl)は、純粋にオフラインデータセットから多様な目標を達成する形で、汎用スキル学習を約束する。
我々は,状態占有者マッチングの観点から得られた,新しい回帰型オフラインgcrlアルゴリズムである$\textbf{go}$al-conditioned $f$-$\textbf{a}$dvantage $\textbf{r}$egression (gofar)を提案する。
従来のアプローチとは対照的に、GoFARは後向きのレバーベリングを一切必要とせず、その価値とポリシーネットワークに対する非インターリーブ最適化を享受している。
これらの特徴は、より優れたオフラインパフォーマンスと安定性を持つGoFARと、従来のメソッドでは実現不可能な統計的パフォーマンスを保証する。
さらに,新たな対象領域へのゼロショット転送を可能にする純粋にオフラインなソースドメインデータからエージェントに依存しない目標条件付きプランナーを学ぶために,gofarのトレーニング目標を再利用できることを実証する。
広範な実験を通じて,GoFARの有効性を様々な問題設定やタスクで検証し,先行技術よりも優れていた。
特に、実際のロボットの巧妙な操作タスクでは、他の方法が意味のある進歩を遂げることはないが、GoFARは多様な目標を達成する複雑な操作行動を取得する。
関連論文リスト
- Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Swapped goal-conditioned offline reinforcement learning [8.284193221280216]
本稿では、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。
実験では、DQAPGは様々なベンチマークタスクにおいて、最先端のゴール条件付きオフラインRLメソッドよりも優れている。
論文 参考訳(メタデータ) (2023-02-17T13:22:40Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Adversarial Auto-Augment with Label Preservation: A Representation
Learning Principle Guided Approach [95.74102207187545]
本研究では,事前自由な自律的データ拡張の目的が表現学習の原則から導出可能であることを示す。
そこで我々は,既存の手法にシームレスに最適化し,シームレスに統合できる目的に対して,実用的なサロゲートを提案する。
論文 参考訳(メタデータ) (2022-11-02T02:02:51Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。