論文の概要: Query-Policy Misalignment in Preference-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.17400v2
- Date: Thu, 23 Nov 2023 16:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 04:19:39.021752
- Title: Query-Policy Misalignment in Preference-Based Reinforcement Learning
- Title(参考訳): 優先型強化学習におけるクエリ・ポリティクスのミスアライメント
- Authors: Xiao Hu, Jianxiong Li, Xianyuan Zhan, Qing-Shan Jia, Ya-Qin Zhang
- Abstract要約: 報酬モデル全体の品質を改善するために選択された一見有意義なクエリは、実際にはRLエージェントの関心と一致しない可能性があることを示す。
この問題は、ほぼ政治上のクエリと、特別に設計されたハイブリッド体験リプレイを通じて、効果的に対処できることが示される。
提案手法は,人間のフィードバックとRLサンプルの効率の両面で有意な向上を実現している。
- 参考スコア(独自算出の注目度): 22.757962696678913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning (PbRL) provides a natural way to
align RL agents' behavior with human desired outcomes, but is often restrained
by costly human feedback. To improve feedback efficiency, most existing PbRL
methods focus on selecting queries to maximally improve the overall quality of
the reward model, but counter-intuitively, we find that this may not
necessarily lead to improved performance. To unravel this mystery, we identify
a long-neglected issue in the query selection schemes of existing PbRL studies:
Query-Policy Misalignment. We show that the seemingly informative queries
selected to improve the overall quality of reward model actually may not align
with RL agents' interests, thus offering little help on policy learning and
eventually resulting in poor feedback efficiency. We show that this issue can
be effectively addressed via near on-policy query and a specially designed
hybrid experience replay, which together enforce the bidirectional query-policy
alignment. Simple yet elegant, our method can be easily incorporated into
existing approaches by changing only a few lines of code. We showcase in
comprehensive experiments that our method achieves substantial gains in both
human feedback and RL sample efficiency, demonstrating the importance of
addressing query-policy misalignment in PbRL tasks.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、RLエージェントの振る舞いを人間の望ましい結果と整合させる自然な方法を提供するが、コストのかかる人間のフィードバックによって抑制されることが多い。
フィードバック効率を向上させるため,既存のPbRL手法の多くは,報酬モデル全体の品質を最大化するためにクエリの選択に重点を置いている。
この謎を解くために、既存のPbRL研究のクエリ選択スキームにおいて、長年無視されてきた問題を特定する: Query-Policy Misalignment。
報酬モデル全体の品質を改善するために選択された一見有意義なクエリは、実際にはRLエージェントの関心と一致せず、政策学習にはほとんど役立ちず、結果としてフィードバック効率が低下することを示します。
この課題は,双方向のクエリとポリシのアライメントを両立させる特別に設計されたハイブリッド・エクスペリエンス・リプレイによって効果的に解決できることを示す。
シンプルでエレガントな手法で、数行のコードだけを変更することで、既存のアプローチに容易に組み込むことができます。
提案手法は,PbRLタスクにおけるクエリ・ポリティクスのミスアライメントに対処することの重要性を実証し,人間のフィードバックとRLサンプルの効率の両面で大幅に向上することを示す。
関連論文リスト
- RIME: Robust Preference-based Reinforcement Learning with Noisy
Preferences [24.80998892481408]
嗜好に基づく強化学習(PbRL)は、報酬信号として人間の嗜好を活用することにより、報酬工学の必要性を回避する。
現在のPbRLアルゴリズムは、ドメインエキスパートからの高品質なフィードバックを過度に頼っているため、堅牢性が欠如している。
雑音の選好から効果的な報酬学習のための頑健なPbRLアルゴリズムであるRIMEを提案する。
論文 参考訳(メタデータ) (2024-02-27T07:03:25Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - On the Search for Feedback in Reinforcement Learning [6.29295842374861]
我々は,オープンループシーケンスと関連する最適線形フィードバック法則からなる局所的なフィードバック表現の探索を提唱する。
この代替手法は, 高い効率のトレーニングを実現し, 得られた回答は再現可能で信頼性が高く, 得られたクローズド性能は, 最先端のRL技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-21T02:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。