論文の概要: Robust Reward Alignment via Hypothesis Space Batch Cutting
- arxiv url: http://arxiv.org/abs/2502.02921v3
- Date: Wed, 28 May 2025 04:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.059531
- Title: Robust Reward Alignment via Hypothesis Space Batch Cutting
- Title(参考訳): 仮説空間バッチカットによるロバストリワードアライメント
- Authors: Zhixian Xie, Haode Zhang, Yizhe Feng, Wanxin Jin,
- Abstract要約: 本稿では,新鮮かつ幾何学的に解釈可能な視点に基づく,堅牢で効率的な報酬アライメント手法を提案する。
提案手法は,人間の嗜好のバッチに基づいて,報酬仮説空間を「カット」により反復的に洗練する。
未知の誤選好に対処するため,各バッチに保守的な裁断手法を導入し,誤選好が仮説空間に過度に積極的になるのを防ぐ。
- 参考スコア(独自算出の注目度): 6.4274405516321655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward design in reinforcement learning and optimal control is challenging. Preference-based alignment addresses this by enabling agents to learn rewards from ranked trajectory pairs provided by humans. However, existing methods often struggle from poor robustness to unknown false human preferences. In this work, we propose a robust and efficient reward alignment method based on a novel and geometrically interpretable perspective: hypothesis space batched cutting. Our method iteratively refines the reward hypothesis space through "cuts" based on batches of human preferences. Within each batch, human preferences, queried based on disagreement, are grouped using a voting function to determine the appropriate cut, ensuring a bounded human query complexity. To handle unknown erroneous preferences, we introduce a conservative cutting method within each batch, preventing erroneous human preferences from making overly aggressive cuts to the hypothesis space. This guarantees provable robustness against false preferences, while eliminating the need to explicitly identify them. We evaluate our method in a model predictive control setting across diverse tasks. The results demonstrate that our framework achieves comparable or superior performance to state-of-the-art methods in error-free settings while significantly outperforming existing methods when handling a high percentage of erroneous human preferences.
- Abstract(参考訳): 強化学習におけるリワード設計と最適制御は困難である。
優先順位に基づくアライメントは、エージェントが人間によって提供されるランク付けされた軌道対から報酬を学習できるようにすることによって、この問題に対処する。
しかし、既存の手法は、しばしば不確実性から未知の偽の人間の嗜好に苦しむ。
本研究では,新しい,幾何学的に解釈可能な視点,つまり仮説空間のバッチ切断に基づく,頑健で効率的な報酬アライメント手法を提案する。
提案手法は,人間の嗜好のバッチに基づいて,報酬仮説空間を「カット」により反復的に洗練する。
各バッチ内では、不一致に基づいてクエリされる人間の選好は、適切なカットを決定するために投票機能を使用してグループ化され、人間の問合せの複雑さが保証される。
未知の誤選好に対処するため,各バッチに保守的な裁断手法を導入し,誤選好が仮説空間に過度に積極的になるのを防ぐ。
これにより、偽の嗜好に対して証明可能な堅牢性を保証すると同時に、それらを明確に識別する必要がなくなる。
本手法は,様々なタスクにまたがるモデル予測制御設定において評価する。
提案手法は, 従来の手法に比べて, 過度な人的嗜好を扱う場合に比べて, 従来の手法よりも優れていた。
関連論文リスト
- Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment [33.5805074836187]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるのに非常に効果的であることが証明されている。
この制限は、RLHFが特定のトークンを強化または抑制すべきかどうかについての認識の欠如に起因している。
本稿では,様々なタスクに頑健に適用可能な適応的メッセージワイドRLHF'法を提案する。
論文 参考訳(メタデータ) (2024-10-23T16:16:15Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Sequential Manipulation Against Rank Aggregation: Theory and Algorithm [119.57122943187086]
脆弱なデータ収集プロセスに対するオンライン攻撃を活用します。
ゲーム理論の観点からは、対決シナリオは分布的に堅牢なゲームとして定式化される。
提案手法は,ランクアグリゲーション手法の結果を逐次的に操作する。
論文 参考訳(メタデータ) (2024-07-02T03:31:21Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Holistic Approach to Measure Sample-level Adversarial Vulnerability and
its Utility in Building Trustworthy Systems [17.707594255626216]
敵対的攻撃は、知覚不能な雑音を伴うイメージを摂動させ、誤ったモデル予測をもたらす。
本稿では,異なる視点を組み合わせることで,サンプルの敵対的脆弱性を定量化するための総合的アプローチを提案する。
サンプルレベルで確実に敵の脆弱性を推定することにより、信頼できるシステムを開発できることを実証する。
論文 参考訳(メタデータ) (2022-05-05T12:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。