論文の概要: SENIOR: Efficient Query Selection and Preference-Guided Exploration in Preference-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.14648v1
- Date: Tue, 17 Jun 2025 15:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.553423
- Title: SENIOR: Efficient Query Selection and Preference-Guided Exploration in Preference-based Reinforcement Learning
- Title(参考訳): SENIOR: 優先度に基づく強化学習における効率的なクエリ選択と推論誘導探索
- Authors: Hexian Ni, Tao Lu, Haoyuan Hu, Yinghao Cai, Shuo Wang,
- Abstract要約: 本稿では,SENIORと呼ばれる,効率的なクエリ選択と優先誘導探索手法を提案する。
SENIORは、人間のフィードバック効率を改善し、ポリシー学習を加速するために、意味があり、簡単に比較できる行動セグメントペアを選択することができる。
実験の結果,SENIORは人間のフィードバック効率と政策収束速度の両面で,他の5つの既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 13.96987567638522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based Reinforcement Learning (PbRL) methods provide a solution to avoid reward engineering by learning reward models based on human preferences. However, poor feedback- and sample- efficiency still remain the problems that hinder the application of PbRL. In this paper, we present a novel efficient query selection and preference-guided exploration method, called SENIOR, which could select the meaningful and easy-to-comparison behavior segment pairs to improve human feedback-efficiency and accelerate policy learning with the designed preference-guided intrinsic rewards. Our key idea is twofold: (1) We designed a Motion-Distinction-based Selection scheme (MDS). It selects segment pairs with apparent motion and different directions through kernel density estimation of states, which is more task-related and easy for human preference labeling; (2) We proposed a novel preference-guided exploration method (PGE). It encourages the exploration towards the states with high preference and low visits and continuously guides the agent achieving the valuable samples. The synergy between the two mechanisms could significantly accelerate the progress of reward and policy learning. Our experiments show that SENIOR outperforms other five existing methods in both human feedback-efficiency and policy convergence speed on six complex robot manipulation tasks from simulation and four real-worlds.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)手法は、人間の嗜好に基づいて報酬モデルを学ぶことによって報酬工学を避けるためのソリューションを提供する。
しかしながら、PbRLの適用を妨げる問題は、フィードバックとサンプル効率の低さが依然として残っている。
本稿では,SENIORと呼ばれる,効率的なクエリ選択と嗜好誘導探索手法を提案する。これは,人間のフィードバック効率を向上させるために,有意義かつ容易に比較可能な行動セグメントを選択でき,設計した嗜好誘導型固有報酬によるポリシー学習を促進できる。
1)動作識別に基づく選択スキーム(MDS)を設計した。
カーネルの密度推定により,動作や方向の異なるセグメントペアを選択することで,人間の嗜好のラベル付けをより容易に行えるようにし,また,新しい選好誘導探索法(PGE)を提案した。
高い嗜好と低い訪問で州への探検を奨励し、貴重なサンプルを達成するためにエージェントを継続的に指導する。
この2つのメカニズムの相乗効果は、報酬と政策学習の進歩を著しく加速させる可能性がある。
実験の結果、SENIORは、シミュレーションと4つの実世界の6つの複雑なロボット操作タスクにおいて、人間のフィードバック効率とポリシー収束速度の両方において、他の5つの既存手法よりも優れていることがわかった。
関連論文リスト
- PB$^2$: Preference Space Exploration via Population-Based Methods in Preference-Based Reinforcement Learning [2.0373030742807545]
我々は、この選好探索問題を人口ベース手法を用いて同定し、解決する。
多様なエージェントの個体数を維持することで、より包括的な選好環境の探索が可能になることを実証する。
この多様性は、明らかに区別可能な振る舞いを持つ嗜好クエリを生成することにより、報酬モデル学習を改善する。
論文 参考訳(メタデータ) (2025-06-16T17:51:33Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Efficient Reinforced Feature Selection via Early Stopping Traverse
Strategy [36.890295071860166]
単エージェントモンテカルロ型強化特徴選択法(MCRFS)を提案する。
また,早期停止(ES)戦略と報酬レベルインタラクティブ(RI)戦略の2つの効率改善戦略を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:51:13Z) - Diversity-based Trajectory and Goal Selection with Hindsight Experience
Replay [8.259694128526112]
我々はHER(DTGSH)を用いた多様性に基づく軌道と目標選択を提案する。
提案手法は,全てのタスクにおいて,他の最先端手法よりも高速に学習し,高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2021-08-17T21:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。