Fugu-MT 論文翻訳(概要): Preventing Reward Hacking with Occupancy Measure Regularization

論文の概要: Preventing Reward Hacking with Occupancy Measure Regularization

arxiv url: http://arxiv.org/abs/2403.03185v1
Date: Tue, 5 Mar 2024 18:22:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 13:54:03.340686
Title: Preventing Reward Hacking with Occupancy Measure Regularization
Title（参考訳）: 正規化測定によるリワードハックの防止
Authors: Cassidy Laidlaw, Shivam Singhal, Anca Dragan
Abstract要約: リワードハッキングは、エージェントが未知の真の報酬に対して不適切なパフォーマンスをした場合に発生する。我々は、報酬ハッキングを防止するために、AD分散ではなくポリシー間のOM分散に基づく正規化を提案する。
参考スコア（独自算出の注目度）: 13.02511938180832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reward hacking occurs when an agent performs very well with respect to a "proxy" reward function (which may be hand-specified or learned), but poorly with respect to the unknown true reward. Since ensuring good alignment between the proxy and true reward is extremely difficult, one approach to prevent reward hacking is optimizing the proxy conservatively. Prior work has particularly focused on enforcing the learned policy to behave similarly to a "safe" policy by penalizing the KL divergence between their action distributions (AD). However, AD regularization doesn't always work well since a small change in action distribution at a single state can lead to potentially calamitous outcomes, while large changes might not be indicative of any dangerous activity. Our insight is that when reward hacking, the agent visits drastically different states from those reached by the safe policy, causing large deviations in state occupancy measure (OM). Thus, we propose regularizing based on the OM divergence between policies instead of AD divergence to prevent reward hacking. We theoretically establish that OM regularization can more effectively avoid large drops in true reward. Then, we empirically demonstrate in a variety of realistic environments that OM divergence is superior to AD divergence for preventing reward hacking by regularizing towards a safe policy. Furthermore, we show that occupancy measure divergence can also regularize learned policies away from reward hacking behavior. Our code and data are available at https://github.com/cassidylaidlaw/orpo
Abstract（参考訳）: 逆ハック(Reward Hacking)は、エージェントが「プロキシ」報酬関数(手動で特定または学習されることもある)に関して非常によく機能するが、未知の真の報酬に関してはあまり機能しない場合に起こる。プロキシと真の報酬の整合性を確保することは極めて難しいため、報酬ハッキングを防ぐ一つのアプローチは、プロキシを保守的に最適化することである。従来の研究は、学習した政策を、行動分布(AD)間のKLのばらつきを罰することによって「安全」政策と同じような行動に強制することに焦点を当てていた。しかし、ADの正規化は、単一の状態におけるアクション分布の小さな変更が潜在的に悲惨な結果をもたらす可能性があるため、常にうまく機能しない。私たちの洞察では、報酬のハッキングを行うと、エージェントは安全なポリシーによって到達した状態と大きく異なる状態を訪れ、州の占有率(OM)に大きな変化を引き起こします。そこで本稿では,AD分散ではなくポリシー間のOM分散に基づく正規化を提案する。理論的には、OM正則化は真の報酬の大きな損失をより効果的に回避できる。そこで我々は,安全政策に向けて規則化することで報酬ハッキングを防止するために,OM分散がAD分散よりも優れている,様々な現実的な環境を実証的に実証した。さらに,報奨ハッキング行動から学習方針を定式化することも可能であることを示す。私たちのコードとデータはhttps://github.com/cassidylaidlaw/orpoで入手できます。

関連論文リスト

TROFI: Trajectory-Ranked Offline Inverse Reinforcement Learning [48.31236495564408]
本稿では,TROFI(Trjectory-Ranked Offline Inverse reinforcement Learning)を提案する。 TROFIは、事前に定義された報酬関数なしでオフラインでポリシーを効果的に学習するための新しいアプローチである。 TROFIは基準線を一貫して上回り、基本真理報酬を用いてポリシーを学ぶのに相容れない性能を示す。
論文参考訳（メタデータ） (2025-06-27T08:22:41Z)
Inference-Time Reward Hacking in Large Language Models [18.461698175682987]
リワードモデルは、正確性、有用性、安全性などの複雑なデシダータのプロキシとして機能する。不正な報酬を過度に最適化することで、意図したアライメントの目標を覆し、全体的なパフォーマンスを低下させることができる。 HedgeTuneは最適な推論時間パラメータを見つけ、報酬のハッキングを避けるための効率的なアルゴリズムである。
論文参考訳（メタデータ） (2025-06-24T02:05:25Z)
Learning a Pessimistic Reward Model in RLHF [8.241055055841114]
本研究は、報酬ハッキングに対して堅牢な悲観的報酬モデルを学ぶために、新しい悲観的報酬微調整法であるPET'を提案する。従来の報酬モデリング技術は、KL正規化が報酬ハッキングの緩和に重要な役割を果たしている不完全な報酬モデルを訓練する。 PETにより微調整された悲観的な報酬モデルに対するポリシーを最適化する場合、報酬のハッキングは正規化に頼らずに防止できることを示す。
論文参考訳（メタデータ） (2025-05-26T22:34:42Z)
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning [25.817231106021552]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)のテストタイムスケーリングにおいて、困難な推論タスクにおいて有効であることが証明されている。しかしながら、PRMによる報酬ハッキング問題は、強化微調整における彼らの成功を制限している。本稿では,PRMによる報酬ハッキングの主な原因を,強化学習における正準和形信用代入として同定する。
論文参考訳（メタデータ） (2025-04-21T17:59:02Z)
Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。報酬形成はRLHFを安定させ、報酬ハッキングを部分的に軽減する。本稿では,報酬形成手法の総合的研究について述べる。提案手法は,報酬モデル自体に埋め込まれた潜在的嗜好を,強化学習の信号として活用する手法である。
論文参考訳（メタデータ） (2025-02-26T02:57:59Z)
When Can Proxies Improve the Sample Complexity of Preference Learning? [63.660855773627524]
我々は,代行報酬の最大化が必ずしも真の報酬を増やすとは限らない,報酬ハッキングの問題に対処する。プロキシフィードバックに関する十分な条件を概説し、満足すれば、プロキシデータが基底真理ポリシーを学習する際のサンプルの複雑さを確実に改善できることを示す。
論文参考訳（メタデータ） (2024-12-21T04:07:17Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文参考訳（メタデータ） (2023-12-14T18:59:04Z)
$f$-Policy Gradients: A General Framework for Goal Conditioned RL using $f$-Divergences [44.91973620442546]
本稿では,$f$-Policy Gradientsという新たな探索方法を紹介する。問題となるグリッドワールドにおける標準ポリシー手法と比較して,$f$-PGの方が優れた性能を示す。
論文参考訳（メタデータ） (2023-10-10T17:07:05Z)
Defining and Characterizing Reward Hacking [3.385988109683852]
期待されるプロキシリターンを増やすことで、期待される真のリターンを決して削減できないのであれば、プロキシはハック不可能である、と私たちは言います。特に、すべてのポリシーの集合に対して、2つの報酬関数は、一方が定数である場合にのみハック不能である。この結果から,報酬関数を用いて狭いタスクを指定し,AIシステムと人的価値の整合を図った。
論文参考訳（メタデータ） (2022-09-27T00:32:44Z)
Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。 PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文参考訳（メタデータ） (2022-06-13T19:11:22Z)
Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文参考訳（メタデータ） (2022-01-25T03:48:00Z)
The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文参考訳（メタデータ） (2022-01-10T18:58:52Z)
Difference Rewards Policy Gradients [17.644110838053134]
本稿では,分散化政策の学習を可能にするために,差分報酬とポリシを組み合わせた新しいアルゴリズムを提案する。報酬関数を直接区別することで、Dr.ReinforceはQ-関数の学習に伴う困難を避けることができる。差分報酬を推定するために用いられる追加報酬ネットワークを学習するDr.Reinforceのバージョンの有効性を示す。
論文参考訳（メタデータ） (2020-12-21T11:23:17Z)
Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文参考訳（メタデータ） (2020-12-12T20:06:15Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)
Quantifying Differences in Reward Functions [24.66221171351157]
2つの報酬関数間の差を直接定量化するために、等価・ポリティ不変比較(EPIC)距離を導入する。 EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
論文参考訳（メタデータ） (2020-06-24T17:35:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。