論文の概要: Robust Reward Alignment via Hypothesis Space Batch Cutting
- arxiv url: http://arxiv.org/abs/2502.02921v2
- Date: Thu, 06 Feb 2025 18:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:11.948533
- Title: Robust Reward Alignment via Hypothesis Space Batch Cutting
- Title(参考訳): 仮説空間バッチカットによるロバストリワードアライメント
- Authors: Zhixian Xie, Haode Zhang, Yizhe Feng, Wanxin Jin,
- Abstract要約: 本稿では,新鮮かつ幾何学的に解釈可能な視点に基づく,堅牢で効率的な報酬アライメント手法を提案する。
提案手法は,人間の嗜好のバッチに基づいて,報酬仮説空間を「カット」により反復的に洗練する。
未知の誤選好に対処するため, 各バッチに保守的切削手法を導入する。
- 参考スコア(独自算出の注目度): 6.4274405516321655
- License:
- Abstract: Reward design for reinforcement learning and optimal control agents is challenging. Preference-based alignment addresses this by enabling agents to learn rewards from ranked trajectory pairs provided by humans. However, existing methods often struggle from poor robustness to unknown false human preferences. In this work, we propose a robust and efficient reward alignment method based on a novel and geometrically interpretable perspective: hypothesis space batched cutting. Our method iteratively refines the reward hypothesis space through "cuts" based on batches of human preferences. Within each batch, human preferences, queried based on disagreement, are grouped using a voting function to determine the appropriate cut, ensuring a bounded human query complexity. To handle unknown erroneous preferences, we introduce a conservative cutting method within each batch, preventing erroneous human preferences from making overly aggressive cuts to the hypothesis space. This guarantees provable robustness against false preferences. We evaluate our method in a model predictive control setting across diverse tasks, including DM-Control, dexterous in-hand manipulation, and locomotion. The results demonstrate that our framework achieves comparable or superior performance to state-of-the-art methods in error-free settings while significantly outperforming existing method when handling high percentage of erroneous human preferences.
- Abstract(参考訳): 強化学習と最適制御エージェントのためのリワード設計は困難である。
優先順位に基づくアライメントは、エージェントが人間によって提供されるランク付けされた軌道対から報酬を学習できるようにすることによって、この問題に対処する。
しかし、既存の手法は、しばしば不確実性から未知の偽の人間の嗜好に苦しむ。
本研究では,新しい,幾何学的に解釈可能な視点,つまり仮説空間のバッチ切断に基づく,頑健で効率的な報酬アライメント手法を提案する。
提案手法は,人間の嗜好のバッチに基づいて,報酬仮説空間を「カット」により反復的に洗練する。
各バッチ内では、不一致に基づいてクエリされる人間の選好は、適切なカットを決定するために投票機能を使用してグループ化され、人間の問合せの複雑さが保証される。
未知の誤選好に対処するため,各バッチに保守的な裁断手法を導入し,誤選好が仮説空間に過度に積極的になるのを防ぐ。
これは偽の嗜好に対する証明可能な堅牢性を保証する。
本手法は,DM-Control,Dexterous in-hand manipulate,locomotionなど多種多様なタスクを対象としたモデル予測制御で評価する。
その結果,過度な人的嗜好を扱う場合,従来の手法よりも高い性能を示しつつ,非誤りな設定における最先端手法に匹敵する性能が得られた。
関連論文リスト
- Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment [33.5805074836187]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるのに非常に効果的であることが証明されている。
この制限は、RLHFが特定のトークンを強化または抑制すべきかどうかについての認識の欠如に起因している。
本稿では,様々なタスクに頑健に適用可能な適応的メッセージワイドRLHF'法を提案する。
論文 参考訳(メタデータ) (2024-10-23T16:16:15Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Sequential Manipulation Against Rank Aggregation: Theory and Algorithm [119.57122943187086]
脆弱なデータ収集プロセスに対するオンライン攻撃を活用します。
ゲーム理論の観点からは、対決シナリオは分布的に堅牢なゲームとして定式化される。
提案手法は,ランクアグリゲーション手法の結果を逐次的に操作する。
論文 参考訳(メタデータ) (2024-07-02T03:31:21Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。