論文の概要: Formulating Reinforcement Learning for Human-Robot Collaboration through Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2602.02530v1
- Date: Tue, 27 Jan 2026 21:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.906281
- Title: Formulating Reinforcement Learning for Human-Robot Collaboration through Off-Policy Evaluation
- Title(参考訳): オフ・ポリティィ・アセスメントによる人間-ロボット協調のための定式化強化学習
- Authors: Saurav Singh, Rodney Sanchez, Alexander Ororbia, Jamison Heard,
- Abstract要約: 強化学習(RL)は、現実世界の意思決定システムを変革する可能性がある。
従来のRLアプローチはドメインの専門知識とトライアル・アンド・エラーに依存することが多い。
本研究では、状態空間の非政治評価と報酬関数の選択を利用する新しいRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.19772341787033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has the potential to transform real-world decision-making systems by enabling autonomous agents to learn from experience. Deploying RL in real-world settings, especially in the context of human-robot interaction, requires defining state representations and reward functions, which are critical for learning efficiency and policy performance. Traditional RL approaches often rely on domain expertise and trial-and-error, necessitating extensive human involvement as well as direct interaction with the environment, which can be costly and impractical, especially in complex and safety-critical applications. This work proposes a novel RL framework that leverages off-policy evaluation (OPE) for state space and reward function selection, using only logged interaction data. This approach eliminates the need for real-time access to the environment or human-in-the-loop feedback, greatly reducing the dependency on costly real-time interactions. The proposed approach systematically evaluates multiple candidate state representations and reward functions by training offline RL agents and applying OPE to estimate policy performance. The optimal state space and reward function are selected based on their ability to produce high-performing policies under OPE metrics. Our method is validated on two environments: the Lunar Lander environment by OpenAI Gym, which provides a controlled setting for assessing state space and reward function selection, and a NASA-MATB-II human subjects study environment, which evaluates the approach's real-world applicability to human-robot teaming scenarios. This work enhances the feasibility and scalability of offline RL for real-world environments by automating critical RL design decisions through a data-driven OPE-based evaluation, enabling more reliable, effective, and sustainable RL formulation for complex human-robot interaction settings.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、自律的なエージェントが経験から学ぶことによって、現実世界の意思決定システムを変革する可能性がある。
実世界の環境でのRLの展開、特に人間とロボットの相互作用の文脈では、状態表現と報酬関数の定義が必要である。
従来のRLアプローチはドメインの専門知識とトライアル・アンド・エラーに頼り、大規模な人間による関与と環境との直接的な相互作用を必要とする。
本研究は,ログ化されたインタラクションデータのみを用いて,状態空間と報酬関数の選択にオフ政治評価(OPE)を活用する新しいRLフレームワークを提案する。
このアプローチは、環境へのリアルタイムアクセスやループ内フィードバックの必要性を排除し、コストのかかるリアルタイムインタラクションへの依存性を大幅に削減します。
提案手法は、オフラインのRLエージェントを訓練し、OPEを適用してポリシー性能を推定することにより、複数の候補状態表現と報酬関数を体系的に評価する。
最適状態空間と報酬関数は、OPEメトリクスの下で高いパフォーマンスのポリシーを生成する能力に基づいて選択される。
提案手法は,状態空間と報酬関数の選択を制御したOpenAI GymによるLunar Lander環境と,人間とロボットのコラボレーションシナリオに対するアプローチの現実的適用性を評価するNASA-MATB-II人体研究環境の2つの環境で検証されている。
この作業は、データ駆動型OPEに基づく評価を通じて重要なRL設計決定を自動化することで、実環境におけるオフラインRLの実現性とスケーラビリティを高め、複雑な人間とロボットのインタラクション設定のためのより信頼性、有効、持続可能なRL定式化を可能にする。
関連論文リスト
- Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation [57.65688895630163]
ACuRLは自律的なカリキュラム強化学習フレームワークで、エージェントを人間データゼロの特定の環境に継続的に適応させる。
本研究では,環境内学習と環境横断学習の両方を効果的に実現し,既存の環境を忘れずに4~22%の性能向上を実現した。
論文 参考訳(メタデータ) (2026-02-10T23:06:02Z) - Scaling Agent Learning via Experience Synthesis [100.42712232390532]
強化学習は、対話を通じて自己改善を行うことで、自律的なエージェントに力を与えることができる。
しかし、コストのかかるロールアウト、タスクの多様性の制限、信頼性の低い報奨信号、インフラストラクチャの複雑さによって、その実践的採用は依然として困難である。
私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。
論文 参考訳(メタデータ) (2025-11-05T18:58:48Z) - UserRL: Training Interactive User-Centric Agent via Reinforcement Learning [104.63494870852894]
強化学習(Reinforcement Learning, RL)は、動的多ターン相互作用に関わるエージェントモデルのトレーニングにおいて有望であることを示す。
我々は,標準化された体育環境を通じて,ユーザ中心の能力のトレーニングと評価を行う統一的なフレームワークであるUserRLを提案する。
論文 参考訳(メタデータ) (2025-09-24T03:33:20Z) - Residual Off-Policy RL for Finetuning Behavior Cloning Policies [41.99435186991878]
本稿では,行動クローニング(BC)と強化学習(RL)の利点を組み合わせたレシピを提案する。
提案手法は疎二元報酬信号のみを必要とするため,高次自由度(DoF)システムの操作ポリシーを効果的に改善することができる。
特に、私たちの知る限りでは、人型ロボットによる実世界初のRLトレーニングが成功しました。
論文 参考訳(メタデータ) (2025-09-23T17:59:46Z) - Mind the Gap: Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning [15.619925926862235]
GAPは汎用的な自律型ペンテスティングフレームワークである。
現実的な環境で効率的な政策トレーニングを実現することを目的としている。
また、あるインスタンスから他のケースについて推論できるエージェントを訓練する。
論文 参考訳(メタデータ) (2024-12-05T11:24:27Z) - OffRIPP: Offline RL-based Informative Path Planning [12.705099730591671]
IPPはロボット工学において重要なタスクであり、ターゲット環境に関する貴重な情報を収集するためには、エージェントが経路を設計する必要がある。
トレーニング中のリアルタイムインタラクションを必要とせずに情報ゲインを最適化するオフラインRLベースのIPPフレームワークを提案する。
我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
論文 参考訳(メタデータ) (2024-09-25T11:30:59Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [76.83428371942735]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning
in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文 参考訳(メタデータ) (2023-10-13T03:39:15Z) - Affordance Learning from Play for Sample-Efficient Policy Learning [30.701546777177555]
遠隔操作型プレイデータから自己監督型ビジュアルアプライアンスモデルを用いて,効率的なポリシー学習とモーションプランニングを実現する。
モデルベースプランニングとモデルフリーの深層強化学習を組み合わせることで、人々が好む同じ対象領域を好むポリシーを学ぶ。
我々の政策はベースラインよりも4倍速くトレーニングし、新しいオブジェクトを一般化する。
論文 参考訳(メタデータ) (2022-03-01T11:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。