論文の概要: OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration
- arxiv url: http://arxiv.org/abs/2604.02349v1
- Date: Thu, 19 Feb 2026 02:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.323905
- Title: OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration
- Title(参考訳): OPRIDE:データ内探索によるオフライン推論に基づく強化学習
- Authors: Yiqin Yang, Hao Hu, Yihuan Mao, Jin Zhang, Chengjie Wu, Yuhua Jiang, Xu Yang, Runpeng Xie, Yi Fan, Bo Liu, Yang Gao, Bo Xu, Chongjie Zhang,
- Abstract要約: 嗜好に基づく強化学習(PbRL)は、洗練された報酬設計を回避し、人間の意図に適合する。
オフラインPbRLのクエリ効率を向上させるために,textbfIn-textbfDataset textbfExploration (OPRIDE) を用いた新しいアルゴリズム textbfOffline textbfRL を提案する。
- 参考スコア(独自算出の注目度): 42.70370800703202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based reinforcement learning (PbRL) can help avoid sophisticated reward designs and align better with human intentions, showing great promise in various real-world applications. However, obtaining human feedback for preferences can be expensive and time-consuming, which forms a strong barrier for PbRL. In this work, we address the problem of low query efficiency in offline PbRL, pinpointing two primary reasons: inefficient exploration and overoptimization of learned reward functions. In response to these challenges, we propose a novel algorithm, \textbf{O}ffline \textbf{P}b\textbf{R}L via \textbf{I}n-\textbf{D}ataset \textbf{E}xploration (OPRIDE), designed to enhance the query efficiency of offline PbRL. OPRIDE consists of two key features: a principled exploration strategy that maximizes the informativeness of the queries and a discount scheduling mechanism aimed at mitigating overoptimization of the learned reward functions. Through empirical evaluations, we demonstrate that OPRIDE significantly outperforms prior methods, achieving strong performance with notably fewer queries. Moreover, we provide theoretical guarantees of the algorithm's efficiency. Experimental results across various locomotion, manipulation, and navigation tasks underscore the efficacy and versatility of our approach.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、洗練された報酬設計を回避し、人間の意図と整合し、様々な現実世界のアプリケーションで大きな可能性を秘めている。
しかし、人間の好みに対するフィードバックを得るには費用がかかり、時間がかかり、PbRLの強い障壁となる。
本研究では、オフラインPbRLにおけるクエリ効率の低い問題に対処し、非効率な探索と学習された報酬関数の過度な最適化という2つの主な理由を指摘した。
これらの課題に対応するために、オフラインPbRLのクエリ効率を高めるために、新しいアルゴリズムである \textbf{O}ffline \textbf{P}b\textbf{R}L を、 \textbf{I}n-\textbf{D}ataset \textbf{E}xploration (OPRIDE) によって提案する。
OPRIDEは2つの重要な特徴から構成される。クエリのインフォメーション性を最大化する探索戦略と、学習された報酬関数の過度な最適化を緩和することを目的としたディスカウントスケジューリング機構である。
経験的評価により,OPRIDEは従来手法よりも大幅に優れており,クエリが顕著に少なく,高い性能を実現していることを示す。
さらに,アルゴリズムの効率を理論的に保証する。
様々な移動,操作,ナビゲーションタスクにまたがる実験結果は,我々のアプローチの有効性と汎用性を示している。
関連論文リスト
- Preference-Guided Reinforcement Learning for Efficient Exploration [14.058764537783086]
LOPE: textbfLearning textbfOnline with trajectory textbfPreferencedanctextbfE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能の点で、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Query-Policy Misalignment in Preference-Based Reinforcement Learning [21.212703100030478]
報酬モデル全体の品質を改善するために選択された一見有意義なクエリは、実際にはRLエージェントの関心と一致しない可能性があることを示す。
この問題は、ほぼ政治上のクエリと、特別に設計されたハイブリッド体験リプレイを通じて、効果的に対処できることが示される。
提案手法は,人間のフィードバックとRLサンプルの効率の両面で有意な向上を実現している。
論文 参考訳(メタデータ) (2023-05-27T07:55:17Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。