Fugu-MT 論文翻訳(概要): When Your AIs Deceive You: Challenges of Partial Observability in Reinforcement Learning from Human Feedback

論文の概要: When Your AIs Deceive You: Challenges of Partial Observability in Reinforcement Learning from Human Feedback

arxiv url: http://arxiv.org/abs/2402.17747v3
Date: Sat, 8 Jun 2024 12:49:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 01:13:35.283520
Title: When Your AIs Deceive You: Challenges of Partial Observability in Reinforcement Learning from Human Feedback
Title（参考訳）: AIがあなたを欺くとき:人間のフィードバックから強化学習における部分的可観測性の課題
Authors: Leon Lang, Davis Foote, Stuart Russell, Anca Dragan, Erik Jenner, Scott Emmons,
Abstract要約: 人間のフィードバックが部分的な観察にのみ基づく場合、それは誤認的なインフレーションと過度な調整をもたらす可能性があることを示す。人体をボルツマン・レーショナル(Boltzmann-rational) w.r.t.としてモデル化し、RLHFが保証される条件が、その性能を欺くような政策をもたらすことを証明した。人間のフィードバックは加法定数まで一意的に戻り関数を決定することがあるが、他の現実的な場合、あいまいさは不可避である。
参考スコア（独自算出の注目度）: 16.540715313676994
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Past analyses of reinforcement learning from human feedback (RLHF) assume that the human evaluators fully observe the environment. What happens when human feedback is based only on partial observations? We formally define two failure cases: deceptive inflation and overjustification. Modeling the human as Boltzmann-rational w.r.t. a belief over trajectories, we prove conditions under which RLHF is guaranteed to result in policies that deceptively inflate their performance, overjustify their behavior to make an impression, or both. Under the new assumption that the human's partial observability is known and accounted for, we then analyze how much information the feedback process provides about the return function. We show that sometimes, the human's feedback determines the return function uniquely up to an additive constant, but in other realistic cases, there is irreducible ambiguity. We propose exploratory research directions to help tackle these challenges and caution against blindly applying RLHF in partially observable settings.
Abstract（参考訳）: 人間のフィードバック(RLHF)からの強化学習の過去の分析は、人間の評価者が環境を完全に観察していると仮定している。人間のフィードバックが部分的な観察にのみ依存するとどうなるのか? 正式に2つの障害ケースを定義します。人間をボルツマン・レーショナル・w.r.t.としてモデル化し、RLHFが保証される条件を証明し、その条件は、その性能を欺くか、その振る舞いを過度に調整して印象を与えるか、あるいはその両方を与える。人間の部分的可観測性が知られて説明されているという新たな仮定の下で、フィードバックプロセスが返却関数についてどれだけの情報を提供するかを分析する。人間のフィードバックは加法定数まで一意的に戻り関数を決定することがあるが、他の現実的な場合、あいまいさは不可避である。本稿では,これらの課題に対処するための探索研究の方向性と,部分的に観測可能な環境下でのRLHFの盲目的適用に対する警告を提案する。

関連論文リスト

Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [0.0]
強化学習はしばしば報酬の相違を伴う課題に直面します。 HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながるバイアスが伴うため、問題を悪化させる可能性がある。
論文参考訳（メタデータ） (2025-03-26T03:17:12Z)
RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation [3.998312409829935]
人間のフィードバックからの強化学習は、重度で体系的なミスアライメントを引き起こす可能性があることを示す。本稿では,Reinforcement Learning from Hindsight Simulation (RLHS)を紹介する。我々はTruthfulQAベンチマークのポストホック評価を行い、単一タスクの微調整をしても、RLHFのミスアライメントとRLHSのアライメントは、実質的に異なる設定を継続することを示した。
論文参考訳（メタデータ） (2025-01-15T06:33:15Z)
Understanding Impact of Human Feedback via Influence Functions [25.467337374024197]
Reinforcement Learning from Human Feedback (RLHF)では、人間のフィードバックから適切な報酬モデルを学ぶことが重要である。人間のフィードバックは、特に複雑な反応を評価するとき、しばしばうるさい、一貫性がない、偏見がある。本稿では,人間からのフィードバックが報酬モデルの性能に与える影響を測定するための計算効率の近似法を提案する。
論文参考訳（メタデータ） (2025-01-10T08:50:38Z)
Observation Interference in Partially Observable Assistance Games [34.53170543153206]
我々は,人間とAIアシスタントが部分的な観察を行うことを可能にする,人間-AI値アライメント問題のモデルについて検討する。最適なアシスタントは、人間が最適に演奏している場合でも、観察干渉行動をとる必要がある。不合理性のボルツマンモデルに従えば、これはアシスタントが観察に干渉するインセンティブを生じさせることが示される。
論文参考訳（メタデータ） (2024-12-23T18:53:33Z)
A Theoretical Framework for Partially Observed Reward-States in RLHF [39.41038579993645]
部分的に観察された報酬状態(PORRL)を用いた強化学習のモデル化フィードバックは2種類あり、$-$ cardinal と dueling の2種類があります。両方のフィードバック設定において、我々のモデルと保証が既存のモデルを一般化し拡張することを示します。
論文参考訳（メタデータ） (2024-02-05T18:38:55Z)
Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。 5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文参考訳（メタデータ） (2023-10-20T14:46:48Z)
Understanding Robust Overfitting from the Feature Generalization Perspective [61.770805867606796]
逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。これはロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。本稿では,新しい特徴一般化の観点からROを考察する。
論文参考訳（メタデータ） (2023-10-01T07:57:03Z)
Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文参考訳（メタデータ） (2023-05-02T17:46:12Z)
HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare [15.57203496240758]
オフ政治評価は、人間中心環境における効果的な政策の誘導に不可欠である。部分的可観測性とアグリゲート報酬を扱うための人中心型OPEを提案する。我々のアプローチは、異なるポリシーのリターンを確実に予測し、最先端のベンチマークを上回っます。
論文参考訳（メタデータ） (2023-02-18T02:33:30Z)
The Effect of Modeling Human Rationality Level on Learning Rewards from Multiple Feedback Types [38.37216644899506]
フィードバックタイプ毎の実データに有理性係数を基礎付けることは、報奨学習に有意な影響を与えると論じる。一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じることがわかりました。
論文参考訳（メタデータ） (2022-08-23T02:19:10Z)
Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文参考訳（メタデータ） (2022-01-27T22:15:56Z)
On the Interaction of Belief Bias and Explanations [4.211128681972148]
我々は,信念バイアスの概観,人的評価における役割,そしてNLP実践者の考え方について述べる。本研究では,評価における信念バイアスを考慮に入れることの重要性を指摘しながら,このような制御を導入する際に,最高性能の手法に関する結論が変化することを示す。
論文参考訳（メタデータ） (2021-06-29T12:49:42Z)
Maximizing Information Gain in Partially Observable Environments via Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。負のエントロピーと予測される予測報酬の正確な誤差を導出する。この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文参考訳（メタデータ） (2020-05-11T08:13:49Z)
Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文参考訳（メタデータ） (2020-04-30T18:08:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。