論文の概要: Similarity as Reward Alignment: Robust and Versatile Preference-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.12529v1
- Date: Sat, 14 Jun 2025 15:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.412442
- Title: Similarity as Reward Alignment: Robust and Versatile Preference-based Reinforcement Learning
- Title(参考訳): リワードアライメントとしての類似性:ロバストとヴァーサタイルの選好に基づく強化学習
- Authors: Sara Rajaram, R. James Cotton, Fabian H. Sinz,
- Abstract要約: Reward Alignment(SARA)との類似性は、ノイズの多いラベルに耐性を持ち、多様なフィードバックフォーマットやトレーニングパラダイムに適応可能な、単純なコントラストのフレームワークである。
SARAは好みのサンプルの潜伏表現を学び、学習した潜伏者との類似性として報酬を計算する。
連続制御オフラインRLベンチマークのベースラインと比較して高い性能を示す。
- 参考スコア(独自算出の注目度): 6.621247723203913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based Reinforcement Learning (PbRL) entails a variety of approaches for aligning models with human intent to alleviate the burden of reward engineering. However, most previous PbRL work has not investigated the robustness to labeler errors, inevitable with labelers who are non-experts or operate under time constraints. Additionally, PbRL algorithms often target very specific settings (e.g. pairwise ranked preferences or purely offline learning). We introduce Similarity as Reward Alignment (SARA), a simple contrastive framework that is both resilient to noisy labels and adaptable to diverse feedback formats and training paradigms. SARA learns a latent representation of preferred samples and computes rewards as similarities to the learned latent. We demonstrate strong performance compared to baselines on continuous control offline RL benchmarks. We further demonstrate SARA's versatility in applications such as trajectory filtering for downstream tasks, cross-task preference transfer, and reward shaping in online learning.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、報酬工学の負担を軽減するために、モデルと人間の意図を合わせるための様々なアプローチを必要とする。
しかし,従来のPbRL研究の多くは,非専門家である,あるいは時間制約下で運用するラベルラスタにとって避けられない,ラベルラスタエラーに対する堅牢性について調査していない。
さらに、PbRLアルゴリズムは、しばしば非常に特定の設定(例えば、ペアのランク付けされた好みや純粋にオフライン学習)をターゲットにしている。
Reward Alignment (SARA) は、ノイズの多いラベルに耐性を持ち、多様なフィードバック形式やトレーニングパラダイムに適応可能なシンプルなコントラストフレームワークである。
SARAは好みのサンプルの潜伏表現を学び、学習した潜伏者との類似性として報酬を計算する。
連続制御オフラインRLベンチマークのベースラインと比較して高い性能を示す。
さらに、下流タスクのためのトラジェクトリフィルタリング、タスク間の嗜好伝達、オンライン学習における報酬形成などのアプリケーションにおけるSARAの汎用性を実証する。
関連論文リスト
- CLARIFY: Contrastive Preference Reinforcement Learning for Untangling Ambiguous Queries [13.06534916144093]
ResolvIng Ambiguous Feedback (CLARIFY) のためのコントラストLeArningを提案する。
CLARIFYは、選好情報を含む軌道埋め込み空間を学習し、明確に区別されたセグメントが分離されることを保証する。
我々のアプローチは、より優れたクエリを選択するだけでなく、意味のある軌道埋め込みも学習する。
論文 参考訳(メタデータ) (2025-05-31T04:37:07Z) - Binary Reward Labeling: Bridging Offline Preference and Reward-Based Reinforcement Learning [5.480108613013526]
本稿では、報酬ベースのオフラインRLと優先ベースのオフラインRLのギャップを埋める一般的なフレームワークを提案する。
我々の重要な洞察は、好みフィードバックを2進報酬ラベリング(BRL)を通してスカラー報酬に変換することである。
我々は、標準D4RLベンチマークに基づいて、好みデータセットに基づいて、我々のフレームワークを実証的にテストする。
論文 参考訳(メタデータ) (2024-06-14T23:40:42Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences [23.414135977983953]
嗜好に基づく強化学習(PbRL)は、報酬信号として人間の嗜好を活用することにより、報酬工学の必要性を回避する。
雑音の選好から効果的な報酬学習のための頑健なPbRLアルゴリズムであるRIMEを提案する。
論文 参考訳(メタデータ) (2024-02-27T07:03:25Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。