論文の概要: Similarity as Reward Alignment: Robust and Versatile Preference-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.12529v1
- Date: Sat, 14 Jun 2025 15:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.412442
- Title: Similarity as Reward Alignment: Robust and Versatile Preference-based Reinforcement Learning
- Title(参考訳): リワードアライメントとしての類似性:ロバストとヴァーサタイルの選好に基づく強化学習
- Authors: Sara Rajaram, R. James Cotton, Fabian H. Sinz,
- Abstract要約: Reward Alignment(SARA)との類似性は、ノイズの多いラベルに耐性を持ち、多様なフィードバックフォーマットやトレーニングパラダイムに適応可能な、単純なコントラストのフレームワークである。
SARAは好みのサンプルの潜伏表現を学び、学習した潜伏者との類似性として報酬を計算する。
連続制御オフラインRLベンチマークのベースラインと比較して高い性能を示す。
- 参考スコア(独自算出の注目度): 6.621247723203913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based Reinforcement Learning (PbRL) entails a variety of approaches for aligning models with human intent to alleviate the burden of reward engineering. However, most previous PbRL work has not investigated the robustness to labeler errors, inevitable with labelers who are non-experts or operate under time constraints. Additionally, PbRL algorithms often target very specific settings (e.g. pairwise ranked preferences or purely offline learning). We introduce Similarity as Reward Alignment (SARA), a simple contrastive framework that is both resilient to noisy labels and adaptable to diverse feedback formats and training paradigms. SARA learns a latent representation of preferred samples and computes rewards as similarities to the learned latent. We demonstrate strong performance compared to baselines on continuous control offline RL benchmarks. We further demonstrate SARA's versatility in applications such as trajectory filtering for downstream tasks, cross-task preference transfer, and reward shaping in online learning.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、報酬工学の負担を軽減するために、モデルと人間の意図を合わせるための様々なアプローチを必要とする。
しかし,従来のPbRL研究の多くは,非専門家である,あるいは時間制約下で運用するラベルラスタにとって避けられない,ラベルラスタエラーに対する堅牢性について調査していない。
さらに、PbRLアルゴリズムは、しばしば非常に特定の設定(例えば、ペアのランク付けされた好みや純粋にオフライン学習)をターゲットにしている。
Reward Alignment (SARA) は、ノイズの多いラベルに耐性を持ち、多様なフィードバック形式やトレーニングパラダイムに適応可能なシンプルなコントラストフレームワークである。
SARAは好みのサンプルの潜伏表現を学び、学習した潜伏者との類似性として報酬を計算する。
連続制御オフラインRLベンチマークのベースラインと比較して高い性能を示す。
さらに、下流タスクのためのトラジェクトリフィルタリング、タスク間の嗜好伝達、オンライン学習における報酬形成などのアプリケーションにおけるSARAの汎用性を実証する。
関連論文リスト
- CLARIFY: Contrastive Preference Reinforcement Learning for Untangling Ambiguous Queries [13.06534916144093]
ResolvIng Ambiguous Feedback (CLARIFY) のためのコントラストLeArningを提案する。
CLARIFYは、選好情報を含む軌道埋め込み空間を学習し、明確に区別されたセグメントが分離されることを保証する。
我々のアプローチは、より優れたクエリを選択するだけでなく、意味のある軌道埋め込みも学習する。
論文 参考訳(メタデータ) (2025-05-31T04:37:07Z) - Binary Reward Labeling: Bridging Offline Preference and Reward-Based Reinforcement Learning [5.480108613013526]
本稿では、報酬ベースのオフラインRLと優先ベースのオフラインRLのギャップを埋める一般的なフレームワークを提案する。
我々の重要な洞察は、好みフィードバックを2進報酬ラベリング(BRL)を通してスカラー報酬に変換することである。
我々は、標準D4RLベンチマークに基づいて、好みデータセットに基づいて、我々のフレームワークを実証的にテストする。
論文 参考訳(メタデータ) (2024-06-14T23:40:42Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。