Fugu-MT 論文翻訳(概要): When Your AI Deceives You: Challenges with Partial Observability of Human Evaluators in Reward Learning

論文の概要: When Your AI Deceives You: Challenges with Partial Observability of Human Evaluators in Reward Learning

arxiv url: http://arxiv.org/abs/2402.17747v1
Date: Tue, 27 Feb 2024 18:32:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 15:08:08.404023
Title: When Your AI Deceives You: Challenges with Partial Observability of Human Evaluators in Reward Learning
Title（参考訳）: AIがあなたを欺くとき:リワード学習における人間評価者の部分的可観測性への挑戦
Authors: Leon Lang, Davis Foote, Stuart Russell, Anca Dragan, Erik Jenner, Scott Emmons
Abstract要約: 人間のフィードバックが部分的な観察にのみ基づいている場合、それは誤認や過度な修正をもたらす可能性があることを示す。我々は,環境の部分的可観測性が学習された戻り関数のあいまいさにどのように変換するかを数学的に特徴づける。
参考スコア（独自算出の注目度）: 17.526803642325294
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Past analyses of reinforcement learning from human feedback (RLHF) assume that the human fully observes the environment. What happens when human feedback is based only on partial observations? We formally define two failure cases: deception and overjustification. Modeling the human as Boltzmann-rational w.r.t. a belief over trajectories, we prove conditions under which RLHF is guaranteed to result in policies that deceptively inflate their performance, overjustify their behavior to make an impression, or both. To help address these issues, we mathematically characterize how partial observability of the environment translates into (lack of) ambiguity in the learned return function. In some cases, accounting for partial observability makes it theoretically possible to recover the return function and thus the optimal policy, while in other cases, there is irreducible ambiguity. We caution against blindly applying RLHF in partially observable settings and propose research directions to help tackle these challenges.
Abstract（参考訳）: 人間のフィードバック(RLHF)からの強化学習の過去の分析は、人間が環境を完全に観察していると仮定している。人間のフィードバックが部分的な観察に基づく場合、どうなるか? 正式に2つの障害ケースを定義します。人間をボルツマン・レーショナル・w.r.t.としてモデル化し、RLHFが保証される条件を証明し、その条件は、その性能を欺くか、その振る舞いを過度に調整して印象を与えるか、あるいは両方を与える。これらの問題に対処するために,我々は,環境の部分的可観測性が学習戻り関数の曖昧性(曖昧さ)にどのように変換されるかを数学的に特徴付ける。部分観測可能性の計算は、理論上は回帰関数と最適方針を回復することができるが、他の場合では既約な曖昧さが存在する。我々は、部分的に観測可能な環境にRLHFを盲目的に適用しないことに注意し、これらの課題に対処するための研究指針を提案する。

関連論文リスト

Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [0.0]
強化学習はしばしば報酬の相違を伴う課題に直面します。 HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながるバイアスが伴うため、問題を悪化させる可能性がある。
論文参考訳（メタデータ） (2025-03-26T03:17:12Z)
RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation [3.998312409829935]
人間のフィードバックからの強化学習は、重度で体系的なミスアライメントを引き起こす可能性があることを示す。本稿では,Reinforcement Learning from Hindsight Simulation (RLHS)を紹介する。我々はTruthfulQAベンチマークのポストホック評価を行い、単一タスクの微調整をしても、RLHFのミスアライメントとRLHSのアライメントは、実質的に異なる設定を継続することを示した。
論文参考訳（メタデータ） (2025-01-15T06:33:15Z)
Understanding Impact of Human Feedback via Influence Functions [25.467337374024197]
Reinforcement Learning from Human Feedback (RLHF)では、人間のフィードバックから適切な報酬モデルを学ぶことが重要である。人間のフィードバックは、特に複雑な反応を評価するとき、しばしばうるさい、一貫性がない、偏見がある。本稿では,人間からのフィードバックが報酬モデルの性能に与える影響を測定するための計算効率の近似法を提案する。
論文参考訳（メタデータ） (2025-01-10T08:50:38Z)
Observation Interference in Partially Observable Assistance Games [34.53170543153206]
我々は,人間とAIアシスタントが部分的な観察を行うことを可能にする,人間-AI値アライメント問題のモデルについて検討する。最適なアシスタントは、人間が最適に演奏している場合でも、観察干渉行動をとる必要がある。不合理性のボルツマンモデルに従えば、これはアシスタントが観察に干渉するインセンティブを生じさせることが示される。
論文参考訳（メタデータ） (2024-12-23T18:53:33Z)
A Theoretical Framework for Partially Observed Reward-States in RLHF [39.41038579993645]
部分的に観察された報酬状態(PORRL)を用いた強化学習のモデル化フィードバックは2種類あり、$-$ cardinal と dueling の2種類があります。両方のフィードバック設定において、我々のモデルと保証が既存のモデルを一般化し拡張することを示します。
論文参考訳（メタデータ） (2024-02-05T18:38:55Z)
Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。 5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文参考訳（メタデータ） (2023-10-20T14:46:48Z)
Understanding Robust Overfitting from the Feature Generalization Perspective [61.770805867606796]
逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。これはロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。本稿では,新しい特徴一般化の観点からROを考察する。
論文参考訳（メタデータ） (2023-10-01T07:57:03Z)
Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文参考訳（メタデータ） (2023-05-02T17:46:12Z)
HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare [15.57203496240758]
オフ政治評価は、人間中心環境における効果的な政策の誘導に不可欠である。部分的可観測性とアグリゲート報酬を扱うための人中心型OPEを提案する。我々のアプローチは、異なるポリシーのリターンを確実に予測し、最先端のベンチマークを上回っます。
論文参考訳（メタデータ） (2023-02-18T02:33:30Z)
The Effect of Modeling Human Rationality Level on Learning Rewards from Multiple Feedback Types [38.37216644899506]
フィードバックタイプ毎の実データに有理性係数を基礎付けることは、報奨学習に有意な影響を与えると論じる。一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じることがわかりました。
論文参考訳（メタデータ） (2022-08-23T02:19:10Z)
Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文参考訳（メタデータ） (2022-01-27T22:15:56Z)
On the Interaction of Belief Bias and Explanations [4.211128681972148]
我々は,信念バイアスの概観,人的評価における役割,そしてNLP実践者の考え方について述べる。本研究では,評価における信念バイアスを考慮に入れることの重要性を指摘しながら,このような制御を導入する際に,最高性能の手法に関する結論が変化することを示す。
論文参考訳（メタデータ） (2021-06-29T12:49:42Z)
Maximizing Information Gain in Partially Observable Environments via Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。負のエントロピーと予測される予測報酬の正確な誤差を導出する。この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文参考訳（メタデータ） (2020-05-11T08:13:49Z)
Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文参考訳（メタデータ） (2020-04-30T18:08:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。