論文の概要: ReinforceGen: Hybrid Skill Policies with Automated Data Generation and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.16861v1
- Date: Thu, 18 Dec 2025 18:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.210575
- Title: ReinforceGen: Hybrid Skill Policies with Automated Data Generation and Reinforcement Learning
- Title(参考訳): ReinforceGen: 自動データ生成と強化学習を備えたハイブリッドスキルポリシ
- Authors: Zihan Zhou, Animesh Garg, Ajay Mandlekar, Caelan Garrett,
- Abstract要約: ReinforceGenはタスクの分解、データ生成、模倣学習、モーションプランニングを組み合わせたシステムである。
全タスクで80%の成功率に達し、最も高いリセット範囲設定でビジュモータ制御を行う。
追加のアブレーション研究は、我々の微調整アプローチが平均性能の89%向上に寄与していることを示している。
- 参考スコア(独自算出の注目度): 32.137320056371784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon manipulation has been a long-standing challenge in the robotics community. We propose ReinforceGen, a system that combines task decomposition, data generation, imitation learning, and motion planning to form an initial solution, and improves each component through reinforcement-learning-based fine-tuning. ReinforceGen first segments the task into multiple localized skills, which are connected through motion planning. The skills and motion planning targets are trained with imitation learning on a dataset generated from 10 human demonstrations, and then fine-tuned through online adaptation and reinforcement learning. When benchmarked on the Robosuite dataset, ReinforceGen reaches 80% success rate on all tasks with visuomotor controls in the highest reset range setting. Additional ablation studies show that our fine-tuning approaches contributes to an 89% average performance increase. More results and videos available in https://reinforcegen.github.io/
- Abstract(参考訳): ロングホライゾンの操作は、ロボティクスのコミュニティで長年の課題だった。
本稿では,タスクの分解,データ生成,模倣学習,動作計画を組み合わせたReinforceGenを提案する。
ReinforceGenはまずタスクを複数のローカライズされたスキルに分割する。
スキルと運動計画のターゲットは、10人の人間のデモから生成されたデータセットで模倣学習を訓練し、その後、オンライン適応と強化学習を通じて微調整される。
Robosuiteデータセットでベンチマークされた場合、ReinforceGenは、最も高いリセット範囲設定でvisuomotorコントロールを備えたすべてのタスクで80%の成功率に達した。
追加のアブレーション研究は、我々の微調整アプローチが平均パフォーマンスの89%向上に寄与していることを示している。
さらなる結果とビデオはhttps://reinforcegen.github.io/で公開されている。
関連論文リスト
- FieldGen: From Teleoperated Pre-Manipulation Trajectories to Field-Guided Data Generation [60.28409233931666]
FieldGenは、スケーラブルで多様な、高品質な実世界のデータ収集を可能にする、フィールド誘導型データ生成フレームワークである。
実験により、FieldGenでトレーニングされたポリシーは、遠隔操作ベースのベースラインと比較して、より高い成功率と安定性を達成することが示された。
論文 参考訳(メタデータ) (2025-10-23T17:47:12Z) - RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。
我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。
以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-13T04:57:55Z) - SkillMimicGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment [33.53559296053225]
人間のデモからデモデータセットを生成する自動システムであるSkillMimicGenを提案する。
SkillGenは人間のデモを操作スキルに分割し、これらのスキルを新しいコンテキストに適応させ、自由空間の移動と移動運動を通じてそれらを縫い合わせる。
SkillGenの有効性は、わずか60個のヒトのデモンストレーションから18のタスク変種に24K以上のデモを生成して実証する。
論文 参考訳(メタデータ) (2024-10-24T16:59:26Z) - FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning
During Deployment [25.186525630548356]
Siriusは、人間とロボットが共同作業を行うための、原則化されたフレームワークである。
部分的に自律的なロボットは、意思決定の大部分を確実に行うことを任務としている。
タスク実行から収集したデータに対するポリシーの性能を改善するための新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T18:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。