Fugu-MT 論文翻訳(概要): Robust Reward Alignment via Hypothesis Space Batch Cutting

論文の概要: Robust Reward Alignment via Hypothesis Space Batch Cutting

arxiv url: http://arxiv.org/abs/2502.02921v2
Date: Thu, 06 Feb 2025 18:08:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 13:23:05.942451
Title: Robust Reward Alignment via Hypothesis Space Batch Cutting
Title（参考訳）: 仮説空間バッチカットによるロバストリワードアライメント
Authors: Zhixian Xie, Haode Zhang, Yizhe Feng, Wanxin Jin,
Abstract要約: 本稿では,新鮮かつ幾何学的に解釈可能な視点に基づく,堅牢で効率的な報酬アライメント手法を提案する。提案手法は,人間の嗜好のバッチに基づいて,報酬仮説空間を「カット」により反復的に洗練する。未知の誤選好に対処するため, 各バッチに保守的切削手法を導入する。
参考スコア（独自算出の注目度）: 6.4274405516321655
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward design for reinforcement learning and optimal control agents is challenging. Preference-based alignment addresses this by enabling agents to learn rewards from ranked trajectory pairs provided by humans. However, existing methods often struggle from poor robustness to unknown false human preferences. In this work, we propose a robust and efficient reward alignment method based on a novel and geometrically interpretable perspective: hypothesis space batched cutting. Our method iteratively refines the reward hypothesis space through "cuts" based on batches of human preferences. Within each batch, human preferences, queried based on disagreement, are grouped using a voting function to determine the appropriate cut, ensuring a bounded human query complexity. To handle unknown erroneous preferences, we introduce a conservative cutting method within each batch, preventing erroneous human preferences from making overly aggressive cuts to the hypothesis space. This guarantees provable robustness against false preferences. We evaluate our method in a model predictive control setting across diverse tasks, including DM-Control, dexterous in-hand manipulation, and locomotion. The results demonstrate that our framework achieves comparable or superior performance to state-of-the-art methods in error-free settings while significantly outperforming existing method when handling high percentage of erroneous human preferences.
Abstract（参考訳）: 強化学習と最適制御エージェントのためのリワード設計は困難である。優先順位に基づくアライメントは、エージェントが人間によって提供されるランク付けされた軌道対から報酬を学習できるようにすることによって、この問題に対処する。しかし、既存の手法は、しばしば不確実性から未知の偽の人間の嗜好に苦しむ。本研究では,新しい,幾何学的に解釈可能な視点,つまり仮説空間のバッチ切断に基づく,頑健で効率的な報酬アライメント手法を提案する。提案手法は,人間の嗜好のバッチに基づいて,報酬仮説空間を「カット」により反復的に洗練する。各バッチ内では、不一致に基づいてクエリされる人間の選好は、適切なカットを決定するために投票機能を使用してグループ化され、人間の問合せの複雑さが保証される。未知の誤選好に対処するため,各バッチに保守的な裁断手法を導入し,誤選好が仮説空間に過度に積極的になるのを防ぐ。これは偽の嗜好に対する証明可能な堅牢性を保証する。本手法は,DM-Control,Dexterous in-hand manipulate,locomotionなど多種多様なタスクを対象としたモデル予測制御で評価する。その結果,過度な人的嗜好を扱う場合,従来の手法よりも高い性能を示しつつ,非誤りな設定における最先端手法に匹敵する性能が得られた。

関連論文リスト

A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
PB$^2$: Preference Space Exploration via Population-Based Methods in Preference-Based Reinforcement Learning [2.0373030742807545]
我々は、この選好探索問題を人口ベース手法を用いて同定し、解決する。多様なエージェントの個体数を維持することで、より包括的な選好環境の探索が可能になることを実証する。この多様性は、明らかに区別可能な振る舞いを持つ嗜好クエリを生成することにより、報酬モデル学習を改善する。
論文参考訳（メタデータ） (2025-06-16T17:51:33Z)
Direct Alignment with Heterogeneous Preferences [11.693372619696683]
ユーザタイプ全体の平均報酬を用いて、不均一な嗜好と単一ポリシーとの整合性が最善であることを示す。最小限の情報が優先的な改善をもたらすのに対して、各ユーザタイプからの完全なフィードバックは、最適なポリシを一貫した学習につながります。
論文参考訳（メタデータ） (2025-02-22T18:46:33Z)
Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment [33.5805074836187]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるのに非常に効果的であることが証明されている。この制限は、RLHFが特定のトークンを強化または抑制すべきかどうかについての認識の欠如に起因している。本稿では,様々なタスクに頑健に適用可能な適応的メッセージワイドRLHF'法を提案する。
論文参考訳（メタデータ） (2024-10-23T16:16:15Z)
Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。適切な前提の下では、単純な後悔に縛られる。
論文参考訳（メタデータ） (2024-10-22T14:36:44Z)
Sequential Manipulation Against Rank Aggregation: Theory and Algorithm [119.57122943187086]
脆弱なデータ収集プロセスに対するオンライン攻撃を活用します。ゲーム理論の観点からは、対決シナリオは分布的に堅牢なゲームとして定式化される。提案手法は,ランクアグリゲーション手法の結果を逐次的に操作する。
論文参考訳（メタデータ） (2024-07-02T03:31:21Z)
A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文参考訳（メタデータ） (2024-01-08T17:55:02Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Fair Classifiers that Abstain without Harm [24.90899074869189]
批判的な応用においては、分類器は人間に意思決定を延期することが不可欠である。本稿では,既存の分類器が特定のサンプルの予測を選択的に禁ずるポストホック法を提案する。この枠組みは,同程度の禁制率で精度を犠牲にすることなく,公平性の違いの観点から既存手法より優れる。
論文参考訳（メタデータ） (2023-10-09T23:07:28Z)
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文参考訳（メタデータ） (2023-07-24T17:50:24Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Holistic Approach to Measure Sample-level Adversarial Vulnerability and its Utility in Building Trustworthy Systems [17.707594255626216]
敵対的攻撃は、知覚不能な雑音を伴うイメージを摂動させ、誤ったモデル予測をもたらす。本稿では,異なる視点を組み合わせることで,サンプルの敵対的脆弱性を定量化するための総合的アプローチを提案する。サンプルレベルで確実に敵の脆弱性を推定することにより、信頼できるシステムを開発できることを実証する。
論文参考訳（メタデータ） (2022-05-05T12:36:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。