論文の概要: Accelerating Robotic Reinforcement Learning with Agent Guidance
- arxiv url: http://arxiv.org/abs/2602.11978v1
- Date: Thu, 12 Feb 2026 14:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.860926
- Title: Accelerating Robotic Reinforcement Learning with Agent Guidance
- Title(参考訳): エージェント誘導によるロボット強化学習の高速化
- Authors: Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang,
- Abstract要約: 強化学習(RL)は、自律ロボットが試行錯誤を通じて汎用的な操作スキルを習得するための強力なパラダイムを提供する。
近年のHuman-in-the-Loop(HIL)手法は,人間の修正によってトレーニングを加速するが,この手法はスケーラビリティの障壁に直面している。
エージェント誘導政策探索(AGPS)は,人間の監督者をマルチモーダルエージェントに置き換えることで,トレーニングパイプラインを自動化するフレームワークである。
- 参考スコア(独自算出の注目度): 17.75786047468276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) offers a powerful paradigm for autonomous robots to master generalist manipulation skills through trial-and-error. However, its real-world application is stifled by severe sample inefficiency. Recent Human-in-the-Loop (HIL) methods accelerate training by using human corrections, yet this approach faces a scalability barrier. Reliance on human supervisors imposes a 1:1 supervision ratio that limits fleet expansion, suffers from operator fatigue over extended sessions, and introduces high variance due to inconsistent human proficiency. We present Agent-guided Policy Search (AGPS), a framework that automates the training pipeline by replacing human supervisors with a multimodal agent. Our key insight is that the agent can be viewed as a semantic world model, injecting intrinsic value priors to structure physical exploration. By using executable tools, the agent provides precise guidance via corrective waypoints and spatial constraints for exploration pruning. We validate our approach on two tasks, ranging from precision insertion to deformable object manipulation. Results demonstrate that AGPS outperforms HIL methods in sample efficiency. This automates the supervision pipeline, unlocking the path to labor-free and scalable robot learning. Project website: https://agps-rl.github.io/agps.
- Abstract(参考訳): 強化学習(RL)は、自律ロボットが試行錯誤を通じて汎用的な操作スキルを習得するための強力なパラダイムを提供する。
しかし、実世界の応用は厳密なサンプル不効率さに悩まされている。
近年のHuman-in-the-Loop(HIL)手法は,人間の修正によってトレーニングを加速するが,この手法はスケーラビリティの障壁に直面している。
人事監督への信頼は、艦隊の拡大を制限する1:1の監督比率を課し、長期にわたるオペレーターの疲労に悩まされ、不整合な人間の熟練度による高いばらつきをもたらす。
エージェント誘導政策探索(AGPS)は,人間の監督者をマルチモーダルエージェントに置き換えることで,トレーニングパイプラインを自動化するフレームワークである。
我々の重要な洞察は、エージェントを意味世界モデルと見なすことができ、構造的物理探査に先立って本質的な価値を注入できるということである。
実行可能なツールを使用することで、エージェントは正確な誘導を行うことができる。
精度の挿入から変形可能なオブジェクト操作まで,2つのタスクに対するアプローチを検証する。
その結果,AGPSは試料効率においてHIL法より優れていた。
これにより、監視パイプラインが自動化され、労働自由でスケーラブルなロボット学習への道が開ける。
プロジェクトウェブサイト: https://agps-rl.github.io/agps
関連論文リスト
- ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。