論文の概要: SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration
- arxiv url: http://arxiv.org/abs/2509.19292v1
- Date: Tue, 23 Sep 2025 17:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.986936
- Title: SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration
- Title(参考訳): SOE:オンマンフォールド探査によるロボット政策の自己改善
- Authors: Yang Jin, Jun Lv, Han Xue, Wendi Chen, Chuan Wen, Cewu Lu,
- Abstract要約: On-Manifold Exploration (SOE)は、ロボット操作におけるポリシー探索と改善を強化するフレームワークである。
SOEはタスク関連因子のコンパクトな潜在表現を学習し、有効なアクションの多様体への制約探索を行う。
プラグインモジュールとして任意のポリシモデルとシームレスに統合することができ、基本ポリシのパフォーマンスを低下させることなく、探索を強化することができる。
- 参考スコア(独自算出の注目度): 58.05143960563826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent agents progress by continually refining their capabilities through actively exploring environments. Yet robot policies often lack sufficient exploration capability due to action mode collapse. Existing methods that encourage exploration typically rely on random perturbations, which are unsafe and induce unstable, erratic behaviors, thereby limiting their effectiveness. We propose Self-Improvement via On-Manifold Exploration (SOE), a framework that enhances policy exploration and improvement in robotic manipulation. SOE learns a compact latent representation of task-relevant factors and constrains exploration to the manifold of valid actions, ensuring safety, diversity, and effectiveness. It can be seamlessly integrated with arbitrary policy models as a plug-in module, augmenting exploration without degrading the base policy performance. Moreover, the structured latent space enables human-guided exploration, further improving efficiency and controllability. Extensive experiments in both simulation and real-world tasks demonstrate that SOE consistently outperforms prior methods, achieving higher task success rates, smoother and safer exploration, and superior sample efficiency. These results establish on-manifold exploration as a principled approach to sample-efficient policy self-improvement. Project website: https://ericjin2002.github.io/SOE
- Abstract(参考訳): インテリジェントエージェントは、積極的に環境を探索することで、継続的に能力を磨き上げていく。
しかし、ロボットポリシーはアクションモードの崩壊による十分な探索能力に欠けることが多い。
探索を奨励する既存の方法は、通常ランダムな摂動に依存しており、これは安全ではない、不安定で不規則な振る舞いを誘発し、その結果、その効果を制限している。
本稿では,ロボット操作における政策探索と改善を行うフレームワークである,オン・マンド・エクスプロレーション(SOE)による自己改善を提案する。
SOEは、タスク関連因子のコンパクトな潜在表現を学び、有効な行動の多様体を探索し、安全性、多様性、有効性を保証する。
プラグインモジュールとして任意のポリシモデルとシームレスに統合することができ、基本ポリシのパフォーマンスを低下させることなく、探索を強化することができる。
さらに、構造化された潜伏空間は、人間の誘導による探索を可能にし、効率と制御性をさらに向上させる。
シミュレーションと実世界の両方のタスクにおける大規模な実験は、SOEが先行手法を一貫して上回り、より高いタスク成功率、よりスムーズで安全な探索、より優れたサンプル効率を実現していることを示している。
これらの結果は、サンプル効率の政策自己改善に対する原則的なアプローチとして、オンマンフォールド探索を確立している。
プロジェクトウェブサイト: https://ericjin 2002.github.io/SOE
関連論文リスト
- Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision [2.3548641190233264]
自己拡張型ロボット軌道(Self-Augmented Robot Trajectory, SART)は、一つの人間のデモンストレーションからポリシー学習を可能にするフレームワークである。
SARTは、人間による実証にのみ訓練されたポリシーよりも、はるかに高い成功率を達成する。
論文 参考訳(メタデータ) (2025-09-11T23:10:56Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Active Exploration for Robotic Manipulation [40.39182660794481]
本稿では,スパース・リワード型ロボット操作作業における効率的な学習を可能にするモデルに基づく能動探索手法を提案する。
我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,スクラッチから本手法を訓練した。
論文 参考訳(メタデータ) (2022-10-23T18:07:51Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。