論文の概要: Exploiting Policy Idling for Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2508.15669v1
- Date: Thu, 21 Aug 2025 15:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.392849
- Title: Exploiting Policy Idling for Dexterous Manipulation
- Title(参考訳): 有害マニピュレーションのための爆発的政策アイドリング
- Authors: Annie S. Chen, Philemon Brakel, Antonia Bronars, Annie Xie, Sandy Huang, Oliver Groth, Maria Bauza, Markus Wulfmeier, Nicolas Heess, Dushyant Rao,
- Abstract要約: 本研究では, アイドリング行動の検出可能性を活用して, 探索と政策改善を通知する方法について検討する。
PIP(Pause-induced Perturbations)は,検出したアイドリング状態に摂動を適用したアプローチである。
シミュレーションされた2つのアームタスクにおいて、この単純なアプローチはテスト時間性能を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 19.909895138745345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based methods for dexterous manipulation have made notable progress in recent years. However, learned policies often still lack reliability and exhibit limited robustness to important factors of variation. One failure pattern that can be observed across many settings is that policies idle, i.e. they cease to move beyond a small region of states when they reach certain states. This policy idling is often a reflection of the training data. For instance, it can occur when the data contains small actions in areas where the robot needs to perform high-precision motions, e.g., when preparing to grasp an object or object insertion. Prior works have tried to mitigate this phenomenon e.g. by filtering the training data or modifying the control frequency. However, these approaches can negatively impact policy performance in other ways. As an alternative, we investigate how to leverage the detectability of idling behavior to inform exploration and policy improvement. Our approach, Pause-Induced Perturbations (PIP), applies perturbations at detected idling states, thus helping it to escape problematic basins of attraction. On a range of challenging simulated dual-arm tasks, we find that this simple approach can already noticeably improve test-time performance, with no additional supervision or training. Furthermore, since the robot tends to idle at critical points in a movement, we also find that learning from the resulting episodes leads to better iterative policy improvement compared to prior approaches. Our perturbation strategy also leads to a 15-35% improvement in absolute success rate on a real-world insertion task that requires complex multi-finger manipulation.
- Abstract(参考訳): 近年,器用な操作のための学習ベースの手法が顕著な進歩を遂げている。
しかし、学習されたポリシーは信頼性に欠けることが多く、変化の重要な要因に対して限られた堅牢性を示す。
多くの設定で観察できる障害パターンの1つは、ポリシーがアイドルである、すなわち、特定の状態に達すると、一部の状態を超えることをやめることである。
このポリシーアイシングは、しばしばトレーニングデータの反映である。
例えば、ロボットが物体や物体の挿入をつかむ準備をするときに、ロボットが高精度な動作を行う必要がある領域において、データが小さなアクションを含む場合などである。
以前の研究は、トレーニングデータをフィルタリングしたり、制御周波数を変更することで、この現象を緩和しようと試みてきた。
しかし、これらのアプローチは他の方法で政策パフォーマンスに悪影響を及ぼす可能性がある。
代替手段として、アイドリング行動の検出可能性を活用して、探索と政策改善を通知する方法を検討する。
提案手法であるPause-induced Perturbations (PIP) は、検知されたアイドリング状態に摂動を適用し、問題のあるアトラクションの流域から逃れるのに役立つ。
シミュレーションされた複数のデュアルアームタスクに対して、この単純なアプローチは、追加の監督やトレーニングなしに、テスト時のパフォーマンスを著しく向上させることができる。
さらに,ロボットは運動の臨界点にアイドルする傾向にあるため,結果から学習することで,従来のアプローチよりも反復的な政策改善がもたらされることも見いだされる。
我々の摂動戦略はまた、複雑なマルチフィンガー操作を必要とする実世界の挿入タスクにおいて、絶対的な成功率を15~35%向上させる。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Clustering-based Domain-Incremental Learning [4.835091081509403]
連続学習における鍵となる課題は、いわゆる「破滅的な忘れ問題」である。
動的に更新されたサンプルや勾配の有限プールに対するオンラインクラスタリングに基づくアプローチを提案する。
提案手法の有効性と将来性を示す。
論文 参考訳(メタデータ) (2023-09-21T13:49:05Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Distilling Motion Planner Augmented Policies into Visual Control
Policies for Robot Manipulation [26.47544415550067]
我々は,国家ベースのモーションプランナ拡張ポリシーを視覚制御ポリシーに蒸留することを提案する。
閉塞環境における3つの操作課題について評価を行った。
我々のフレームワークはサンプリング効率が高く、最先端のアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2021-11-11T18:52:00Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Decaying Clipping Range in Proximal Policy Optimization [0.0]
PPO(Proximal Policy Optimization)は、強化学習で最も広く使用されているアルゴリズムの1つです。
その成功の鍵は、クリッピングメカニズムによる信頼できるポリシー更新と、ミニバッチ更新の複数のエポックである。
トレーニング全体を通して線形および指数関数的に減衰するクリッピング範囲のアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:08:05Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。