論文の概要: When Your AIs Deceive You: Challenges of Partial Observability in Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2402.17747v3
- Date: Sat, 8 Jun 2024 12:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:13:35.283520
- Title: When Your AIs Deceive You: Challenges of Partial Observability in Reinforcement Learning from Human Feedback
- Title(参考訳): AIがあなたを欺くとき:人間のフィードバックから強化学習における部分的可観測性の課題
- Authors: Leon Lang, Davis Foote, Stuart Russell, Anca Dragan, Erik Jenner, Scott Emmons,
- Abstract要約: 人間のフィードバックが部分的な観察にのみ基づく場合、それは誤認的なインフレーションと過度な調整をもたらす可能性があることを示す。
人体をボルツマン・レーショナル(Boltzmann-rational) w.r.t.としてモデル化し、RLHFが保証される条件が、その性能を欺くような政策をもたらすことを証明した。
人間のフィードバックは加法定数まで一意的に戻り関数を決定することがあるが、他の現実的な場合、あいまいさは不可避である。
- 参考スコア(独自算出の注目度): 16.540715313676994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Past analyses of reinforcement learning from human feedback (RLHF) assume that the human evaluators fully observe the environment. What happens when human feedback is based only on partial observations? We formally define two failure cases: deceptive inflation and overjustification. Modeling the human as Boltzmann-rational w.r.t. a belief over trajectories, we prove conditions under which RLHF is guaranteed to result in policies that deceptively inflate their performance, overjustify their behavior to make an impression, or both. Under the new assumption that the human's partial observability is known and accounted for, we then analyze how much information the feedback process provides about the return function. We show that sometimes, the human's feedback determines the return function uniquely up to an additive constant, but in other realistic cases, there is irreducible ambiguity. We propose exploratory research directions to help tackle these challenges and caution against blindly applying RLHF in partially observable settings.
- Abstract(参考訳): 人間のフィードバック(RLHF)からの強化学習の過去の分析は、人間の評価者が環境を完全に観察していると仮定している。
人間のフィードバックが部分的な観察にのみ依存するとどうなるのか?
正式に2つの障害ケースを定義します。
人間をボルツマン・レーショナル・w.r.t.としてモデル化し、RLHFが保証される条件を証明し、その条件は、その性能を欺くか、その振る舞いを過度に調整して印象を与えるか、あるいはその両方を与える。
人間の部分的可観測性が知られて説明されているという新たな仮定の下で、フィードバックプロセスが返却関数についてどれだけの情報を提供するかを分析する。
人間のフィードバックは加法定数まで一意的に戻り関数を決定することがあるが、他の現実的な場合、あいまいさは不可避である。
本稿では,これらの課題に対処するための探索研究の方向性と,部分的に観測可能な環境下でのRLHFの盲目的適用に対する警告を提案する。
関連論文リスト
- RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation [3.998312409829935]
人間のフィードバックからの強化学習は、重度で体系的なミスアライメントを引き起こす可能性があることを示す。
本稿では,Reinforcement Learning from Hindsight Simulation (RLHS)を紹介する。
我々はTruthfulQAベンチマークのポストホック評価を行い、単一タスクの微調整をしても、RLHFのミスアライメントとRLHSのアライメントは、実質的に異なる設定を継続することを示した。
論文 参考訳(メタデータ) (2025-01-15T06:33:15Z) - Understanding Impact of Human Feedback via Influence Functions [25.467337374024197]
Reinforcement Learning from Human Feedback (RLHF)では、人間のフィードバックから適切な報酬モデルを学ぶことが重要である。
人間のフィードバックは、特に複雑な反応を評価するとき、しばしばうるさい、一貫性がない、偏見がある。
本稿では,人間からのフィードバックが報酬モデルの性能に与える影響を測定するための計算効率の近似法を提案する。
論文 参考訳(メタデータ) (2025-01-10T08:50:38Z) - Observation Interference in Partially Observable Assistance Games [34.53170543153206]
我々は,人間とAIアシスタントが部分的な観察を行うことを可能にする,人間-AI値アライメント問題のモデルについて検討する。
最適なアシスタントは、人間が最適に演奏している場合でも、観察干渉行動をとる必要がある。
不合理性のボルツマンモデルに従えば、これはアシスタントが観察に干渉するインセンティブを生じさせることが示される。
論文 参考訳(メタデータ) (2024-12-23T18:53:33Z) - Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Understanding Robust Overfitting from the Feature Generalization Perspective [61.770805867606796]
逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。
これはロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。
本稿では,新しい特徴一般化の観点からROを考察する。
論文 参考訳(メタデータ) (2023-10-01T07:57:03Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - On the Interaction of Belief Bias and Explanations [4.211128681972148]
我々は,信念バイアスの概観,人的評価における役割,そしてNLP実践者の考え方について述べる。
本研究では,評価における信念バイアスを考慮に入れることの重要性を指摘しながら,このような制御を導入する際に,最高性能の手法に関する結論が変化することを示す。
論文 参考訳(メタデータ) (2021-06-29T12:49:42Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。
我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-30T18:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。