論文の概要: Offline Safe Policy Optimization From Heterogeneous Feedback
- arxiv url: http://arxiv.org/abs/2512.20173v1
- Date: Tue, 23 Dec 2025 09:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.809611
- Title: Offline Safe Policy Optimization From Heterogeneous Feedback
- Title(参考訳): 不均一フィードバックによるオフライン安全政策最適化
- Authors: Ze Gong, Pradeep Varakantham, Akshat Kumar,
- Abstract要約: 報酬の観点からエージェントの行動に関する一対の嗜好に基づいてポリシーを学習するフレームワークと、軌道セグメントの安全性を示すバイナリラベルを導入する。
提案手法は,高い報酬で安全な政策を学習し,最先端のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 35.454656807434006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Preference-based Reinforcement Learning (PbRL) learns rewards and policies aligned with human preferences without the need for extensive reward engineering and direct interaction with human annotators. However, ensuring safety remains a critical challenge across many domains and tasks. Previous works on safe RL from human feedback (RLHF) first learn reward and cost models from offline data, then use constrained RL to optimize a safe policy. While such an approach works in the contextual bandits settings (LLMs), in long horizon continuous control tasks, errors in rewards and costs accumulate, leading to impairment in performance when used with constrained RL methods. To address these challenges, (a) instead of indirectly learning policies (from rewards and costs), we introduce a framework that learns a policy directly based on pairwise preferences regarding the agent's behavior in terms of rewards, as well as binary labels indicating the safety of trajectory segments; (b) we propose \textsc{PreSa} (Preference and Safety Alignment), a method that combines preference learning module with safety alignment in a constrained optimization problem. This optimization problem is solved within a Lagrangian paradigm that directly learns reward-maximizing safe policy \textit{without explicitly learning reward and cost models}, avoiding the need for constrained RL; (c) we evaluate our approach on continuous control tasks with both synthetic and real human feedback. Empirically, our method successfully learns safe policies with high rewards, outperforming state-of-the-art baselines, and offline safe RL approaches with ground-truth reward and cost.
- Abstract(参考訳): オフラインの嗜好に基づく強化学習(PbRL)は、広範囲な報酬工学と人間のアノテーションとの直接的な相互作用を必要とせずに、人間の嗜好に沿った報酬とポリシーを学習する。
しかし、安全を確保することは多くの領域やタスクにおいて重要な課題である。
人的フィードバック(RLHF)による安全RLの研究は、まず、オフラインデータから報酬とコストモデルを学び、次に制約付きRLを使用して安全なポリシを最適化する。
このようなアプローチは文脈的帯域設定(LLM)でも機能するが、長い水平方向の連続制御タスクでは、報酬とコストのエラーが蓄積され、制約されたRLメソッドを使用するとパフォーマンスが低下する。
これらの課題に対処する。
(a)報酬・費用から間接的に政策を学ぶのではなく、報酬の観点からエージェントの行動に関する一対の嗜好に基づいて政策を直接学習する枠組みと、軌道セグメントの安全性を示す二項ラベルを導入する。
b) 制約付き最適化問題において、選好学習モジュールと安全アライメントを組み合わせた方法である \textsc{PreSa} (Preference and Safety Alignment) を提案する。
この最適化問題は、報酬を最大化する安全なポリシーを直接学習するラグランジアンパラダイムの中で解決される。
(c) 人工的, 実的両方のフィードバックを用いて, 連続的な制御課題に対するアプローチを評価する。
実験により,提案手法は高い報酬,最先端のベースライン,オフラインの安全RLアプローチ,地道な報酬とコストで安全なポリシを学習することに成功した。
関連論文リスト
- Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Offline Safe Reinforcement Learning Using Trajectory Classification [21.956407710821416]
我々は、望ましい軌跡を生成し、望ましくない軌跡を避ける政策を学ぶ。
オフライン安全なRLのためのDSRLベンチマークを用いて,本手法を広範囲に評価した。
論文 参考訳(メタデータ) (2024-12-19T22:29:03Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。