Fugu-MT 論文翻訳(概要): Defining and Characterizing Reward Hacking

論文の概要: Defining and Characterizing Reward Hacking

arxiv url: http://arxiv.org/abs/2209.13085v1
Date: Tue, 27 Sep 2022 00:32:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-28 14:59:41.727685
Title: Defining and Characterizing Reward Hacking
Title（参考訳）: Reward Hackingの定義と特徴付け
Authors: Joar Skalse, Nikolaus H. R. Howe, Dmitrii Krasheninnikov, David Krueger
Abstract要約: 期待されるプロキシリターンを増やすことで、期待される真のリターンを決して削減できないのであれば、プロキシはハック不可能である、と私たちは言います。特に、すべてのポリシーの集合に対して、2つの報酬関数は、一方が定数である場合にのみハック不能である。この結果から,報酬関数を用いて狭いタスクを指定し,AIシステムと人的価値の整合を図った。
参考スコア（独自算出の注目度）: 3.385988109683852
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We provide the first formal definition of reward hacking, a phenomenon where optimizing an imperfect proxy reward function, $\mathcal{\tilde{R}}$, leads to poor performance according to the true reward function, $\mathcal{R}$. We say that a proxy is unhackable if increasing the expected proxy return can never decrease the expected true return. Intuitively, it might be possible to create an unhackable proxy by leaving some terms out of the reward function (making it "narrower") or overlooking fine-grained distinctions between roughly equivalent outcomes, but we show this is usually not the case. A key insight is that the linearity of reward (in state-action visit counts) makes unhackability a very strong condition. In particular, for the set of all stochastic policies, two reward functions can only be unhackable if one of them is constant. We thus turn our attention to deterministic policies and finite sets of stochastic policies, where non-trivial unhackable pairs always exist, and establish necessary and sufficient conditions for the existence of simplifications, an important special case of unhackability. Our results reveal a tension between using reward functions to specify narrow tasks and aligning AI systems with human values.
Abstract（参考訳）: これは、不完全なプロキシ報酬関数である$\mathcal{\tilde{r}}$を最適化することで、真の報酬関数である$\mathcal{r}$に従ってパフォーマンスが低下する現象である。期待されたプロキシのリターンを増加させることで、期待された真のリターンを決して減らせないのであれば、プロキシはハックできないと言う。直感的には、いくつかの用語を報酬関数から外したり("より小さく"する)、ほぼ同等の結果間の細かな区別を見渡すことで、ハッキング不能なプロキシを作成することができるかもしれない。重要な洞察は、報酬の線形性(状態-行動的訪問数)が、不安定を非常に強い条件にするということである。特に、すべての確率的政策の集合に対して、2つの報酬関数は、その一方が一定であれば、ハッキングできない。したがって、我々は、非自明な不可能なペアが常に存在する決定論的ポリシーと有限確率的ポリシーに注意を向け、単純化の存在に必要な十分な条件を確立する。この結果から,報酬関数を用いて狭いタスクを指定し,AIシステムと人的価値の整合を図った。

関連論文リスト

Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文参考訳（メタデータ） (2025-03-27T18:00:08Z)
Partial Identifiability and Misspecification in Inverse Reinforcement Learning [64.13583792391783]
Inverse Reinforcement Learning の目的は、報酬関数 $R$ をポリシー $pi$ から推論することである。本稿では,IRLにおける部分的識別性と不特定性について包括的に分析する。
論文参考訳（メタデータ） (2024-11-24T18:35:46Z)
(Quantum) Indifferentiability and Pre-Computation [50.06591179629447]
微分可能性(Indifferentiability)は、理想的なオブジェクトのセキュリティを分析するための暗号パラダイムである。その強さにもかかわらず、前処理攻撃に対するセキュリティを提供する無差別性は知られていない。本稿では、構成可能であるだけでなく、任意の事前計算を考慮に入れた微分可能性の強化を提案する。
論文参考訳（メタデータ） (2024-10-22T00:41:47Z)
Inception: Efficiently Computable Misinformation Attacks on Markov Games [14.491458698581038]
情報非対称性と誤情報によるマルコフゲームに対するセキュリティ脅威について検討する。我々は、攻撃者の最適な最悪のケースポリシーを計算するために、最悪のケース合理性と現在のアルゴリズムの下で被害者のポリシーを導出する。我々の研究は、誤った情報の下での標準的なゲームの仮定からセキュリティの脆弱性を露呈する。
論文参考訳（メタデータ） (2024-06-24T20:01:43Z)
Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.589217788048964]
状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。基本方針の正則化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文参考訳（メタデータ） (2024-03-05T18:22:15Z)
Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文参考訳（メタデータ） (2023-05-28T02:12:00Z)
Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。 PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文参考訳（メタデータ） (2022-06-13T19:11:22Z)
Learning Stationary Nash Equilibrium Policies in $n$-Player Stochastic Games with Independent Chains [2.132096006921048]
我々は、プレイヤーがペイオフ機能を介して結合されている間、内部の状態/行動空間を持つ、$n$プレイヤゲームのクラスを考える。このクラスのゲームに対して、報奨関数を仮定せずに定常ナッシュ(NE)ポリシーを見つけることは、対話可能であることを示す。我々は,2重平均化と2重ミラー降下に基づくアルゴリズムを開発し,これを$epsilon$-NEポリシーの集合に収束させる。
論文参考訳（メタデータ） (2022-01-28T16:27:21Z)
Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文参考訳（メタデータ） (2022-01-25T03:48:00Z)
The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文参考訳（メタデータ） (2022-01-10T18:58:52Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文参考訳（メタデータ） (2021-03-23T16:19:55Z)
Quantifying Differences in Reward Functions [24.66221171351157]
2つの報酬関数間の差を直接定量化するために、等価・ポリティ不変比較(EPIC)距離を導入する。 EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
論文参考訳（メタデータ） (2020-06-24T17:35:15Z)
Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文参考訳（メタデータ） (2020-02-07T14:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。