論文の概要: Goal-Reaching Policy Learning from Non-Expert Observations via Effective Subgoal Guidance
- arxiv url: http://arxiv.org/abs/2409.03996v1
- Date: Fri, 6 Sep 2024 02:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:58:39.053993
- Title: Goal-Reaching Policy Learning from Non-Expert Observations via Effective Subgoal Guidance
- Title(参考訳): 効果的なサブゴール誘導による非専門的観察からのゴールリーチ政策学習
- Authors: RenMing Huang, Shaochong Liu, Yunqiang Pei, Peng Wang, Guoqing Wang, Yang Yang, Hengtao Shen,
- Abstract要約: 本稿では,新たなサブゴナルガイダンス学習戦略を提案する。
拡散戦略に基づくハイレベルポリシーを開発し、適切なサブゴールをウェイポイントとして生成する。
複雑なロボットナビゲーションと操作タスクについて評価する。
- 参考スコア(独自算出の注目度): 46.8322564551124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the challenging problem of long-horizon goal-reaching policy learning from non-expert, action-free observation data. Unlike fully labeled expert data, our data is more accessible and avoids the costly process of action labeling. Additionally, compared to online learning, which often involves aimless exploration, our data provides useful guidance for more efficient exploration. To achieve our goal, we propose a novel subgoal guidance learning strategy. The motivation behind this strategy is that long-horizon goals offer limited guidance for efficient exploration and accurate state transition. We develop a diffusion strategy-based high-level policy to generate reasonable subgoals as waypoints, preferring states that more easily lead to the final goal. Additionally, we learn state-goal value functions to encourage efficient subgoal reaching. These two components naturally integrate into the off-policy actor-critic framework, enabling efficient goal attainment through informative exploration. We evaluate our method on complex robotic navigation and manipulation tasks, demonstrating a significant performance advantage over existing methods. Our ablation study further shows that our method is robust to observation data with various corruptions.
- Abstract(参考訳): 本研究では,非専門的かつアクションフリーな観察データから,長期的目標獲得政策学習の課題に対処する。
完全にラベル付けされた専門家データとは異なり、私たちのデータはよりアクセスしやすく、アクションラベリングのコストのかかるプロセスを避けます。
さらに、目的のない探索を伴うオンライン学習と比較して、我々のデータはより効率的な探索のための有用なガイダンスを提供する。
目的を達成するために,我々は新しいサブゴール指導学習戦略を提案する。
この戦略の背後にある動機は、長期の目標が効率的な探索と正確な状態遷移のための限られたガイダンスを提供することである。
拡散戦略に基づくハイレベル政策を開発し、適切なサブゴールをウェイポイントとして生成し、最終目標に導出しやすい状態を好む。
さらに、状態ゴール値関数を学習し、効率的なサブゴール到達を促進する。
これら2つのコンポーネントは、自然に非政治的アクター批判フレームワークに統合され、情報探索による効率的な目標達成を可能にします。
複雑なロボットナビゲーションおよび操作タスクにおいて,本手法の有効性を実証し,本手法の有効性を検証した。
我々のアブレーション研究は、様々な汚職を伴う観測データに対して、我々の手法が堅牢であることを示している。
関連論文リスト
- HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Learning to Explore by Reinforcement over High-Level Options [0.0]
エージェントに「見回し」と「フロンティアナビゲーション」という2つの行動選択肢を与える新しい手法を提案する。
各タイムステップにおいて、エージェントはポリシーに従ってオプションと対応するアクションを生成する。
提案手法が利用可能な2つの3次元環境データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-11-02T04:21:34Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - C-Learning: Horizon-Aware Cumulative Accessibility Estimation [29.588146016880284]
本研究では,所定の地平線内の所定の状態から目標の到達可能性を測定する累積アクセシビリティ関数の概念を導入する。
これらの関数は、オフライン相互作用から学習できる繰り返し関係に従うことを示す。
我々は,複数ゴールの離散的かつ連続的な制御タスクの集合に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-11-24T20:34:31Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。