論文の概要: SIME: Enhancing Policy Self-Improvement with Modal-level Exploration
- arxiv url: http://arxiv.org/abs/2505.01396v1
- Date: Fri, 02 May 2025 17:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.093029
- Title: SIME: Enhancing Policy Self-Improvement with Modal-level Exploration
- Title(参考訳): SIME: モーダルレベルの探査による政策自己改善の促進
- Authors: Yang Jin, Jun Lv, Wenye Yu, Hongjie Fang, Yong-Lu Li, Cewu Lu,
- Abstract要約: 自己改善を成功させる鍵は、モーダルレベルの探索とデータ選択である。
ポリシー実行中にモーダルレベルの探索機構を組み込むことで、ロボットはより多様なマルチモーダルインタラクションを生成できる。
シミュレーションベンチマークと実世界実験の両方において,効果的なロボット自己改善の実証に成功した。
- 参考スコア(独自算出の注目度): 49.86173021151849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-improvement requires robotic systems to initially learn from human-provided data and then gradually enhance their capabilities through interaction with the environment. This is similar to how humans improve their skills through continuous practice. However, achieving effective self-improvement is challenging, primarily because robots tend to repeat their existing abilities during interactions, often failing to generate new, valuable data for learning. In this paper, we identify the key to successful self-improvement: modal-level exploration and data selection. By incorporating a modal-level exploration mechanism during policy execution, the robot can produce more diverse and multi-modal interactions. At the same time, we select the most valuable trials and high-quality segments from these interactions for learning. We successfully demonstrate effective robot self-improvement on both simulation benchmarks and real-world experiments. The capability for self-improvement will enable us to develop more robust and high-success-rate robotic control strategies at a lower cost. Our code and experiment scripts are available at https://ericjin2002.github.io/SIME/
- Abstract(参考訳): 自己改善には、ロボットシステムがまず人間が提供するデータから学び、環境との相互作用を通じて徐々に能力を高める必要がある。
これは、人間が継続的実践を通じてスキルを向上する方法に似ている。
しかし、効果的な自己改善を実現することは、主にロボットが相互作用中に既存の能力を繰り返す傾向にあり、しばしば学習に有用な新しいデータを生成するのに失敗するため、困難である。
本稿では,モーダルレベルの探索とデータ選択という,自己改善を成功させる鍵を同定する。
ポリシー実行中にモーダルレベルの探索機構を組み込むことで、ロボットはより多様なマルチモーダルインタラクションを生成できる。
同時に、これらの相互作用から最も価値のある試行と高品質なセグメントを選択して学習する。
シミュレーションベンチマークと実世界実験の両方において,効果的なロボット自己改善の実証に成功した。
自己改善能力により、より堅牢で高精度なロボット制御戦略を低コストで開発することができる。
私たちのコードと実験スクリプトはhttps://ericjin2002.github.io/SIME/で公開されています。
関連論文リスト
- Simulation-Aided Policy Tuning for Black-Box Robot Learning [47.83474891747279]
本稿では,データ効率の向上に着目した新しいブラックボックスポリシー探索アルゴリズムを提案する。
このアルゴリズムはロボット上で直接学習し、シミュレーションを追加の情報源として扱い、学習プロセスを高速化する。
ロボットマニピュレータ上でのタスク学習の高速化と成功を,不完全なシミュレータの助けを借りて示す。
論文 参考訳(メタデータ) (2024-11-21T15:52:23Z) - Generalized Robot Learning Framework [10.03174544844559]
本稿では,様々なロボットや環境に容易に再現可能かつ伝達可能な,低コストなロボット学習フレームワークを提案する。
我々は,産業用ロボットにおいても,デプロイ可能な模倣学習をうまく適用できることを実証した。
論文 参考訳(メタデータ) (2024-09-18T15:34:31Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。