論文の概要: Beyond Reward: Offline Preference-guided Policy Optimization
- arxiv url: http://arxiv.org/abs/2305.16217v1
- Date: Thu, 25 May 2023 16:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:50:25.913683
- Title: Beyond Reward: Offline Preference-guided Policy Optimization
- Title(参考訳): Beyond Reward: オフラインの優先度誘導ポリシー最適化
- Authors: Yachen Kang, Diyuan Shi, Jinxin Liu, Li He, Donglin Wang
- Abstract要約: オフライン優先型強化学習(英語: offline preference-based reinforcement learning, PbRL)は、オンラインインタラクションや報酬関数の仕様を不要とする従来の強化学習の一種である。
本研究は、オフライン優先誘導政策最適化(OPPO)の話題に焦点を当てる。
OPPOは1ステップのプロセスでオフラインの軌跡と好みをモデル化し、報酬関数を別々に学習する必要がない。
- 参考スコア(独自算出の注目度): 18.49648170835782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study focuses on the topic of offline preference-based reinforcement
learning (PbRL), a variant of conventional reinforcement learning that
dispenses with the need for online interaction or specification of reward
functions. Instead, the agent is provided with pre-existing offline
trajectories and human preferences between pairs of trajectories to extract the
dynamics and task information, respectively. Since the dynamics and task
information are orthogonal, a naive approach would involve using
preference-based reward learning followed by an off-the-shelf offline RL
algorithm. However, this requires the separate learning of a scalar reward
function, which is assumed to be an information bottleneck. To address this
issue, we propose the offline preference-guided policy optimization (OPPO)
paradigm, which models offline trajectories and preferences in a one-step
process, eliminating the need for separately learning a reward function. OPPO
achieves this by introducing an offline hindsight information matching
objective for optimizing a contextual policy and a preference modeling
objective for finding the optimal context. OPPO further integrates a
well-performing decision policy by optimizing the two objectives iteratively.
Our empirical results demonstrate that OPPO effectively models offline
preferences and outperforms prior competing baselines, including offline RL
algorithms performed over either true or pseudo reward function specifications.
Our code is available at https://github.com/bkkgbkjb/OPPO .
- Abstract(参考訳): 本研究は,オンラインインタラクションや報酬関数の仕様を必要とせず,従来の強化学習の変種であるオフライン優先型強化学習(PbRL)に焦点を当てた。
その代わりに、エージェントは、既存のオフライン軌跡と、2対の軌跡間の人間の嗜好をそれぞれ備え、ダイナミックスとタスク情報を抽出する。
ダイナミクスとタスク情報は直交するので、素直なアプローチでは、好みに基づく報酬学習と、オフザシェルフのオフラインRLアルゴリズムが使用される。
しかし、これは情報ボトルネックであると考えられるスカラー報酬関数を別々に学習する必要がある。
この問題に対処するために,一段階のプロセスでオフラインの軌道や嗜好をモデル化し,報酬関数を個別に学習する必要がない,オフライン優先誘導政策最適化(OPPO)パラダイムを提案する。
OPPOは、コンテキストポリシーを最適化するオフラインの近視情報マッチング目標と、最適なコンテキストを見つけるための選好モデリング目標を導入することでこれを達成している。
OPPOはさらに、2つの目標を反復的に最適化することで、優れた意思決定ポリシーを統合する。
実験の結果,oppoは,真または偽の報酬関数仕様上で実行されるオフラインrlアルゴリズムを含む,先行するベースラインよりも効果的にオフラインの選好をモデル化し,性能を向上できることがわかった。
私たちのコードはhttps://github.com/bkkgbkjb/OPPO で利用可能です。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。
本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。
本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - From Function to Distribution Modeling: A PAC-Generative Approach to
Offline Optimization [30.689032197123755]
本稿では、オフラインデータ例の集合を除いて目的関数が不明なオフライン最適化の問題について考察する。
未知の目的関数を学習して最適化するのではなく、より直感的で直接的な視点で、最適化は生成モデルからサンプリングするプロセスと考えることができる。
論文 参考訳(メタデータ) (2024-01-04T01:32:50Z) - Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。