論文の概要: OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2605.15971v1
- Date: Fri, 15 May 2026 14:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.334593
- Title: OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation
- Title(参考訳): OHP-RL:ロボット操作のための強化学習における指導としてのオンライン人選
- Authors: Yunyang Mo, Jian Li, Qiwei Wu, Yihang Kang, Renjing Xu,
- Abstract要約: Online Human Preference as Guidance in Reinforcement Learning (OHP-RL) は、政策学習の指針となる選好情報として人間の介入を利用するフレームワークである。
OHP-RLは、強い成功率、より高速な収束、そして従来のアプローチよりもはるかに低い人間の介入努力を一貫して達成する。
- 参考スコア(独自算出の注目度): 16.28822074948203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning (RL) enables robots to acquire skills autonomously, its real-world deployment is severely limited by inefficient and unsafe exploration. Human-in-the-loop interventions offer a practical solution, yet existing methods typically exploit these interventions as auxiliary training signals, without fully capturing the richer information they provide about when and how autonomy should be guided. Human interventions often encode relative preferences over behavior under safety and task constraints, rather than prescribing exact actions to imitate. Motivated by this perspective, we propose Online Human Preference as Guidance in Reinforcement Learning (OHP-RL), a framework that leverages human interventions as preference information to guide policy learning. OHP-RL introduces a state-dependent preference gate that adaptively regulates when and to what extent human interventions should shape policy learning. This design enables the agent to benefit from intermittent and imperfect human feedback while preserving autonomous exploration and stable policy optimization. We evaluate OHP-RL on three challenging real-world contact-rich manipulation tasks on a Franka robot. Across all tasks, OHP-RL consistently achieves strong success rates, faster convergence, and substantially lower human intervention effort than prior approaches. Moreover, the learned policies exhibit more stable and human-aligned behavior throughout training.
- Abstract(参考訳): 強化学習(RL)はロボットが自律的にスキルを習得することを可能にするが、現実の展開は非効率で安全でない探索によって著しく制限される。
人道への介入は実践的な解決策を提供するが、既存の手法は一般的にこれらの介入を補助的な訓練信号として活用する。
人間の介入はしばしば、模倣する正確な行動を規定するのではなく、安全とタスク制約の下での行動に対する相対的な嗜好を符号化する。
この観点から,政策学習の指導に人的介入を優先情報として活用するフレームワークであるOHP-RL(Online Human Preference as Guidance in Reinforcement Learning)を提案する。
OHP-RLは状態依存の優先ゲートを導入し、人間の介入が政策学習を形成するべき時期と程度を適応的に規制する。
この設計により、エージェントは、自律的な探索と安定した政策最適化を維持しながら、断続的で不完全な人間のフィードバックの恩恵を受けることができる。
我々は,Frankaロボット上での3つの実世界のコンタクトリッチな操作課題に対して,OHP-RLを評価した。
すべてのタスクにおいて、OHP-RLは、強い成功率、より高速な収束、そして従来のアプローチよりもはるかに低い人間の介入努力を一貫して達成する。
さらに、学習方針は、トレーニング全体を通してより安定し、人間に沿った行動を示す。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [76.83428371942735]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。