論文の概要: Fine-tuning Behavioral Cloning Policies with Preference-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.26605v1
- Date: Tue, 30 Sep 2025 17:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.64997
- Title: Fine-tuning Behavioral Cloning Policies with Preference-Based Reinforcement Learning
- Title(参考訳): 選好型強化学習を用いた微調整行動クローン法
- Authors: Maël Macuglia, Paul Friedrich, Giorgia Ramponi,
- Abstract要約: 専門家によるデモンストレーションの報酬のないデータセットから安全な初期ポリシーを学習し、嗜好に基づく人間のフィードバックを使ってオンラインで微調整する2段階のフレームワークを提案する。
本稿では、このオフライン-オンラインアプローチの第一原理分析と、不確実性重み付けされた目的を通じて両信号を統合する統一アルゴリズムBRIDGEを紹介する。
BRIDGE を離散的かつ連続的に制御する MuJoCo 環境において検証し,スタンドアロンの行動クローンとオンラインの嗜好に基づく RL の双方と比較して,後悔度が低いことを示す。
- 参考スコア(独自算出の注目度): 8.657536710294766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying reinforcement learning (RL) in robotics, industry, and health care is blocked by two obstacles: the difficulty of specifying accurate rewards and the risk of unsafe, data-hungry exploration. We address this by proposing a two-stage framework that first learns a safe initial policy from a reward-free dataset of expert demonstrations, then fine-tunes it online using preference-based human feedback. We provide the first principled analysis of this offline-to-online approach and introduce BRIDGE, a unified algorithm that integrates both signals via an uncertainty-weighted objective. We derive regret bounds that shrink with the number of offline demonstrations, explicitly connecting the quantity of offline data to online sample efficiency. We validate BRIDGE in discrete and continuous control MuJoCo environments, showing it achieves lower regret than both standalone behavioral cloning and online preference-based RL. Our work establishes a theoretical foundation for designing more sample-efficient interactive agents.
- Abstract(参考訳): ロボット工学、産業、医療における強化学習(RL)の展開は、正確な報酬を特定することの難しさと、安全でないデータハングリー探索のリスクの2つの障害によって妨げられている。
まず、報酬のない専門家によるデモンストレーションのデータセットから安全な初期ポリシーを学び、その後、好みに基づいた人間のフィードバックを使ってオンラインで微調整する2段階のフレームワークを提案します。
我々は、このオフライン-オンラインアプローチの第一原理分析を行い、不確実性重み付けされた目的を通じて両信号を統合する統一アルゴリズムBRIDGEを導入する。
オフラインデータの量とオンラインサンプル効率を明示的に結びつけることで、オフラインデモの回数が減少する残念な境界を導出します。
BRIDGE を離散的かつ連続的に制御する MuJoCo 環境において検証し,スタンドアロンの行動クローンとオンラインの嗜好に基づく RL の双方と比較して,後悔度が低いことを示す。
我々の研究は、より試料効率のよい対話型エージェントを設計するための理論的基盤を確立する。
関連論文リスト
- Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning [8.087699764574788]
オフライン優先型強化学習(PbRL)のための効率的なアルゴリズムを提案する。
APPOは、明示的な信頼セットに頼ることなく、サンプルの複雑性境界を保証する。
我々の知る限り、APPOは統計的効率と実用性の両方を提供する最初のオフラインPbRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-07T10:35:01Z) - Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。