論文の概要: On the Sensitivity of Reward Inference to Misspecified Human Models
- arxiv url: http://arxiv.org/abs/2212.04717v2
- Date: Mon, 30 Oct 2023 05:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:21:20.237955
- Title: On the Sensitivity of Reward Inference to Misspecified Human Models
- Title(参考訳): 不特定人間モデルに対する逆推定の感度について
- Authors: Joey Hong and Kush Bhatia and Anca Dragan
- Abstract要約: 人間の振る舞いから報酬関数を推論することは、価値の整合の中心であり、AIの目標と私たち、人間、実際に望むものとを整合させる。
これらのモデルは、報酬の推測が正確になるために、どの程度正確なものが必要なのか?
提案手法は, 推定報酬において, 任意に大きな誤差を生じさせるような, 行動の小さな逆バイアスを構築することが可能であることを示す。
- 参考スコア(独自算出の注目度): 27.94055657571769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inferring reward functions from human behavior is at the center of value
alignment - aligning AI objectives with what we, humans, actually want. But
doing so relies on models of how humans behave given their objectives. After
decades of research in cognitive science, neuroscience, and behavioral
economics, obtaining accurate human models remains an open research topic. This
begs the question: how accurate do these models need to be in order for the
reward inference to be accurate? On the one hand, if small errors in the model
can lead to catastrophic error in inference, the entire framework of reward
learning seems ill-fated, as we will never have perfect models of human
behavior. On the other hand, if as our models improve, we can have a guarantee
that reward accuracy also improves, this would show the benefit of more work on
the modeling side. We study this question both theoretically and empirically.
We do show that it is unfortunately possible to construct small adversarial
biases in behavior that lead to arbitrarily large errors in the inferred
reward. However, and arguably more importantly, we are also able to identify
reasonable assumptions under which the reward inference error can be bounded
linearly in the error in the human model. Finally, we verify our theoretical
insights in discrete and continuous control tasks with simulated and human
data.
- Abstract(参考訳): 人間の振る舞いから報酬関数を推論することは、価値の整合の中心であり、AIの目標と私たち、人間、実際に望むものとを整合させる。
しかし、それを行うには、人間の行動のモデルに依存する。
認知科学、神経科学、行動経済学の何十年もの研究の後、正確な人間のモデルを得ることは、オープンな研究課題である。
これらのモデルは、報酬の推測が正確になるために、どの程度正確なものが必要なのか?
一方で、モデル内の小さなエラーが推論の破滅的なエラーに繋がる場合、報酬学習のフレームワーク全体が不公平に思えます。
一方、モデルが改善されれば、報酬の正確さも向上するという保証が得られます。
我々はこの問題を理論的にも経験的にも研究する。
残念なことに、予想された報酬で任意に大きなエラーを引き起こす行動の小さな敵バイアスを構築することは可能である。
しかし、おそらくもっと重要なことは、報酬推論エラーが人間のモデルにおける誤差で線形に境界づけられるという合理的な仮定を特定できるということです。
最後に、シミュレーションおよび人的データを用いて、離散的かつ連続的な制御タスクにおける理論的洞察を検証する。
関連論文リスト
- Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification [72.08225446179783]
逆強化学習は、エージェントの行動からエージェントの好みを推測することを目的としている。
これを行うには、$pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
我々は、IRL問題が行動モデルの不特定性にどれほど敏感であるかを分析する。
論文 参考訳(メタデータ) (2024-03-11T16:09:39Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Human irrationality: both bad and good for reward inference [3.706222947143855]
この研究は、不合理性が報酬推論に与える影響をよりよく理解することを目的としている。
MDPの言語における不合理性を、ベルマンの最適性方程式を変化させて操作する。
不合理な人間は、正しくモデル化された場合、完全に合理的な人間よりも報酬に関する情報を伝達できることが示される。
論文 参考訳(メタデータ) (2021-11-12T21:44:15Z) - Modeling the Mistakes of Boundedly Rational Agents Within a Bayesian
Theory of Mind [32.66203057545608]
我々は、ベイズ的マインド理論フレームワークを拡張し、目標、計画、行動の誤りを犯したかもしれない有理論的エージェントをモデル化する。
本研究では,扉の裏に宝石を閉じ込めたグリッドワールドパズル (i) とブロックスタッキングドメイン (ii) の2つの領域において,人間の目標推論を導出する実験を行う。
論文 参考訳(メタデータ) (2021-06-24T18:00:03Z) - Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文 参考訳(メタデータ) (2020-09-07T17:59:25Z) - Are Visual Explanations Useful? A Case Study in Model-in-the-Loop
Prediction [49.254162397086006]
画像に基づく年齢予測課題における視覚的満足度に基づく説明について検討する。
モデル予測の提示により,人間の精度が向上することが判明した。
しかし、様々な種類の説明は、人間の正確さやモデルの信頼を著しく変えることができない。
論文 参考訳(メタデータ) (2020-07-23T20:39:40Z) - LESS is More: Rethinking Probabilistic Models of Human Behavior [36.020541093946925]
ボルツマンノイズレーショナル決定モデルは、人々は報酬関数を概ね最適化していると仮定する。
人間の軌道は連続した空間にあり、報酬関数に影響を及ぼす連続的な価値ある特徴を持つ。
報酬のみでなく、軌道間の距離を明示的に考慮するモデルを導入する。
論文 参考訳(メタデータ) (2020-01-13T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。