論文の概要: PB$^2$: Preference Space Exploration via Population-Based Methods in Preference-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.13741v1
- Date: Mon, 16 Jun 2025 17:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.19422
- Title: PB$^2$: Preference Space Exploration via Population-Based Methods in Preference-Based Reinforcement Learning
- Title(参考訳): PB$^2$: Preference Space Exploration by Population-based Methods in Preference-based Reinforcement Learning (特集:情報ネットワーク)
- Authors: Brahim Driss, Alex Davey, Riad Akrour,
- Abstract要約: 我々は、この選好探索問題を人口ベース手法を用いて同定し、解決する。
多様なエージェントの個体数を維持することで、より包括的な選好環境の探索が可能になることを実証する。
この多様性は、明らかに区別可能な振る舞いを持つ嗜好クエリを生成することにより、報酬モデル学習を改善する。
- 参考スコア(独自算出の注目度): 2.0373030742807545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based reinforcement learning (PbRL) has emerged as a promising approach for learning behaviors from human feedback without predefined reward functions. However, current PbRL methods face a critical challenge in effectively exploring the preference space, often converging prematurely to suboptimal policies that satisfy only a narrow subset of human preferences. In this work, we identify and address this preference exploration problem through population-based methods. We demonstrate that maintaining a diverse population of agents enables more comprehensive exploration of the preference landscape compared to single-agent approaches. Crucially, this diversity improves reward model learning by generating preference queries with clearly distinguishable behaviors, a key factor in real-world scenarios where humans must easily differentiate between options to provide meaningful feedback. Our experiments reveal that current methods may fail by getting stuck in local optima, requiring excessive feedback, or degrading significantly when human evaluators make errors on similar trajectories, a realistic scenario often overlooked by methods relying on perfect oracle teachers. Our population-based approach demonstrates robust performance when teachers mislabel similar trajectory segments and shows significantly enhanced preference exploration capabilities,particularly in environments with complex reward landscapes.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、事前に定義された報酬関数を使わずに、人間のフィードバックから行動を学ぶための有望なアプローチとして登場した。
しかしながら、現在のPbRL法は、ヒトの嗜好の限られた部分だけを満たす最適以下の政策に早急に収束する、選好空間を効果的に探索する上で重要な課題に直面している。
本研究では,この選好探索問題を集団的手法を用いて同定し,対処する。
多様なエージェントの個体数を維持することで、単一エージェントのアプローチに比べて、より包括的な選好環境の探索が可能になることを実証する。
この多様性は、人間が有意義なフィードバックを提供するために選択肢を簡単に区別する必要がある現実のシナリオにおいて重要な要素である、明確に区別可能な振る舞いを持つ嗜好クエリを生成することによって、報酬モデル学習を改善する。
我々の実験によると、現在の手法は、局所的な最適性に留まり、過度なフィードバックを必要としたり、人間の評価者が類似した軌道上の誤りを犯した場合に著しく低下する可能性がある。
人口ベースアプローチは,教師が類似の軌道区分を誤ってラベル付けし,特に複雑な報奨景観を持つ環境において,選好探索能力を大幅に向上させた場合に,頑健な性能を示す。
関連論文リスト
- CLARIFY: Contrastive Preference Reinforcement Learning for Untangling Ambiguous Queries [13.06534916144093]
ResolvIng Ambiguous Feedback (CLARIFY) のためのコントラストLeArningを提案する。
CLARIFYは、選好情報を含む軌道埋め込み空間を学習し、明確に区別されたセグメントが分離されることを保証する。
我々のアプローチは、より優れたクエリを選択するだけでなく、意味のある軌道埋め込みも学習する。
論文 参考訳(メタデータ) (2025-05-31T04:37:07Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。