論文の概要: E2HiL: Entropy-Guided Sample Selection for Efficient Real-World Human-in-the-Loop Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.19969v1
- Date: Tue, 27 Jan 2026 18:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.621247
- Title: E2HiL: Entropy-Guided Sample Selection for Efficient Real-World Human-in-the-Loop Reinforcement Learning
- Title(参考訳): E2HiL: Entropy-Guided Sample Selection for Efficient Real-World Human-in-the-Loop Reinforcement Learning
- Authors: Haoyuan Deng, Yuanjiang Xue, Haoyang Du, Boyang Zhou, Zhenyu Wu, Ziwei Wang,
- Abstract要約: サンプル効率のよい実世界のヒューマン・イン・ザ・ループ RL フレームワークを提案する。
方法は、最先端のHiL-RL法と比較して、人間の介入を10.1%少なくし、42.1%高い成功率を達成する。
- 参考スコア(独自算出の注目度): 9.342336341513578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-in-the-loop guidance has emerged as an effective approach for enabling faster convergence in online reinforcement learning (RL) of complex real-world manipulation tasks. However, existing human-in-the-loop RL (HiL-RL) frameworks often suffer from low sample efficiency, requiring substantial human interventions to achieve convergence and thereby leading to high labor costs. To address this, we propose a sample-efficient real-world human-in-the-loop RL framework named \method, which requires fewer human intervention by actively selecting informative samples. Specifically, stable reduction of policy entropy enables improved trade-off between exploration and exploitation with higher sample efficiency. We first build influence functions of different samples on the policy entropy, which is efficiently estimated by the covariance of action probabilities and soft advantages of policies. Then we select samples with moderate values of influence functions, where shortcut samples that induce sharp entropy drops and noisy samples with negligible effect are pruned. Extensive experiments on four real-world manipulation tasks demonstrate that \method achieves a 42.1\% higher success rate while requiring 10.1\% fewer human interventions compared to the state-of-the-art HiL-RL method, validating its effectiveness. The project page providing code, videos, and mathematical formulations can be found at https://e2hil.github.io/.
- Abstract(参考訳): ヒューマン・イン・ザ・ループ・ガイダンスは、複雑な実世界の操作タスクのオンライン強化学習(RL)の迅速な収束を可能にする効果的なアプローチとして登場した。
しかしながら、既存のHuman-in-the-loop RL(HiL-RL)フレームワークは、しばしばサンプル効率の低下に悩まされ、収束を達成するためにかなりの人的介入を必要とし、高い労働コストをもたらす。
そこで本研究では,情報化サンプルを積極的に選択することで,人間の介入を少なくする,サンプル効率のよい実世界のヒューマン・イン・ザ・ループ RL フレームワークである \method を提案する。
具体的には、安定的な政策エントロピーの削減により、より高いサンプル効率で探索と搾取の間のトレードオフを改善することができる。
まず,行動確率の共分散と政策のソフト・アドバンテージによって効率的に推定される政策エントロピーに,異なるサンプルの影響関数を構築した。
次に、影響関数の適度な値を持つサンプルを選択し、鋭いエントロピー滴を誘導するショートカットサンプルと、無視可能な効果を持つノイズサンプルを抽出する。
4つの実世界の操作タスクに関する大規模な実験では、‘method’が42.1\%高い成功率を達成する一方で、最先端のHiL-RL法と比較して10.1\%の人的介入を必要とすることが示され、その効果が検証された。
コード、ビデオ、数学的定式化を提供するプロジェクトページはhttps://e2hil.github.io/にある。
関連論文リスト
- Efficient Reinforcement Learning from Human Feedback via Bayesian Preference Inference [0.29057513016551245]
本稿では,RLHFのスケーラビリティとPBOのクエリ効率を一体化するハイブリッドフレームワークを提案する。
提案手法は, (i) 高次元優先最適化と (ii) LLMファインチューニングの2つの代表的な領域に対して検証する。
論文 参考訳(メタデータ) (2025-11-06T11:27:38Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文 参考訳(メタデータ) (2024-09-16T04:46:22Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。