論文の概要: Mind the Gap: Offline Policy Optimization for Imperfect Rewards
- arxiv url: http://arxiv.org/abs/2302.01667v1
- Date: Fri, 3 Feb 2023 11:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 16:37:20.662625
- Title: Mind the Gap: Offline Policy Optimization for Imperfect Rewards
- Title(参考訳): Mind the Gap: 不完全なリワードに対するオフラインポリシー最適化
- Authors: Jianxiong Li, Xiao Hu, Haoran Xu, Jingjing Liu, Xianyuan Zhan,
Qing-Shan Jia, Ya-Qin Zhang
- Abstract要約: 多様な不完全な報酬を処理できる統合オフラインポリシー最適化手法である textitRGM (Reward Gap Minimization) を提案する。
下位層の双対性を生かして,オンラインインタラクションを伴わずにサンプルベースの学習を可能にする,抽出可能なアルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 14.874900923808408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward function is essential in reinforcement learning (RL), serving as the
guiding signal to incentivize agents to solve given tasks, however, is also
notoriously difficult to design. In many cases, only imperfect rewards are
available, which inflicts substantial performance loss for RL agents. In this
study, we propose a unified offline policy optimization approach, \textit{RGM
(Reward Gap Minimization)}, which can smartly handle diverse types of imperfect
rewards. RGM is formulated as a bi-level optimization problem: the upper layer
optimizes a reward correction term that performs visitation distribution
matching w.r.t. some expert data; the lower layer solves a pessimistic RL
problem with the corrected rewards. By exploiting the duality of the lower
layer, we derive a tractable algorithm that enables sampled-based learning
without any online interactions. Comprehensive experiments demonstrate that RGM
achieves superior performance to existing methods under diverse settings of
imperfect rewards. Further, RGM can effectively correct wrong or inconsistent
rewards against expert preference and retrieve useful information from biased
rewards.
- Abstract(参考訳): リワード機能は強化学習(RL)において必須であり、与えられた課題を解決するためのエージェントのインセンティブを誘導するシグナルとして機能するが、設計も困難である。
多くの場合、不完全な報酬のみが利用可能であり、RLエージェントにかなりのパフォーマンス損失をもたらす。
本研究では,様々な種類の不完全な報酬をスマートに処理できる,オフラインポリシー最適化手法である \textit{rgm (reward gap minimization)"を提案する。
RGMは二段階最適化問題として定式化され、上層は、一部の専門家データと一致する訪問分布を行う報酬補正項を最適化し、下層は補正された報酬と悲観的なRL問題を解く。
下位層の双対性を利用して,オンラインインタラクションを伴わずにサンプルベース学習が可能な抽出可能なアルゴリズムを導出する。
総合的な実験により、RGMは不完全な報酬の多様な設定の下で、既存の手法よりも優れた性能を発揮することが示された。
さらに、RGMは、専門家の選好に対する誤りや矛盾した報奨を効果的に補正し、偏見のある報奨から有用な情報を取得することができる。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - ELO-Rated Sequence Rewards: Advancing Reinforcement Learning Models [3.8616427106430677]
強化学習(RL)は報酬関数の精巧な設計に依存している。
ELO-Rating based RL (ERRL) という新しい報酬推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-05T07:14:03Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。