論文の概要: Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification
- arxiv url: http://arxiv.org/abs/2403.06854v1
- Date: Mon, 11 Mar 2024 16:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:27:21.895644
- Title: Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification
- Title(参考訳): 逆強化学習の誤識別に対する感度の定量化
- Authors: Joar Skalse and Alessandro Abate
- Abstract要約: 逆強化学習は、エージェントの行動からエージェントの好みを推測することを目的としている。
これを行うには、$pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
我々は、IRL問題が行動モデルの不特定性にどれほど敏感であるかを分析する。
- 参考スコア(独自算出の注目度): 72.08225446179783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) aims to infer an agent's preferences
(represented as a reward function $R$) from their behaviour (represented as a
policy $\pi$). To do this, we need a behavioural model of how $\pi$ relates to
$R$. In the current literature, the most common behavioural models are
optimality, Boltzmann-rationality, and causal entropy maximisation. However,
the true relationship between a human's preferences and their behaviour is much
more complex than any of these behavioural models. This means that the
behavioural models are misspecified, which raises the concern that they may
lead to systematic errors if applied to real data. In this paper, we analyse
how sensitive the IRL problem is to misspecification of the behavioural model.
Specifically, we provide necessary and sufficient conditions that completely
characterise how the observed data may differ from the assumed behavioural
model without incurring an error above a given threshold. In addition to this,
we also characterise the conditions under which a behavioural model is robust
to small perturbations of the observed policy, and we analyse how robust many
behavioural models are to misspecification of their parameter values (such as
e.g.\ the discount rate). Our analysis suggests that the IRL problem is highly
sensitive to misspecification, in the sense that very mild misspecification can
lead to very large errors in the inferred reward function.
- Abstract(参考訳): 逆強化学習(IRL)は、エージェントの行動(ポリシー$\pi$)からエージェントの好み(報酬関数$R$と表現される)を推論することを目的としている。
これを行うには、$\pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
現在の文献では、最も一般的な行動モデルは最適性、ボルツマン有理性、因果エントロピー最大化である。
しかしながら、人間の好みと行動の間の真の関係は、これらの行動モデルよりもはるかに複雑である。
これは、振る舞いモデルが誤って特定され、実際のデータに適用した場合、体系的なエラーにつながる可能性があるという懸念を引き起こすことを意味する。
本稿では,IRLの問題点が行動モデルの誤特定にどれほど敏感かを分析する。
具体的には、与えられたしきい値以上の誤差を発生させることなく、観測データと想定された行動モデルとの違いを完全に特徴付ける必要十分条件を提供する。
これに加えて、観測されたポリシーの小さな摂動に対して行動モデルが堅牢である条件を特徴付けるとともに、パラメータ値(例えば、割引率)の誤特定に対して、多くの行動モデルがどれほど堅牢であるかを分析する。
分析の結果,IRL問題は非常に軽度なミス種別が推論された報酬関数に非常に大きな誤差をもたらす可能性があるため,ミス種別に非常に敏感であることが示唆された。
関連論文リスト
- Robust Counterfactual Explanations for Neural Networks With
Probabilistic Guarantees [18.98504694923301]
微分可能なモデルに対する潜在的なモデル変化に対する反ファクトのロバスト性を定量化するために、emphStabilityと呼ぶ尺度を提案する。
我々の主な貢献は、十分に高いエンプスタビリティの反ファクトが、高い確率で自然に発生するモデルが変化した後も有効であることを示すことである。
論文 参考訳(メタデータ) (2023-05-19T20:48:05Z) - On the Sensitivity of Reward Inference to Misspecified Human Models [27.94055657571769]
人間の振る舞いから報酬関数を推論することは、価値の整合の中心であり、AIの目標と私たち、人間、実際に望むものとを整合させる。
これらのモデルは、報酬の推測が正確になるために、どの程度正確なものが必要なのか?
提案手法は, 推定報酬において, 任意に大きな誤差を生じさせるような, 行動の小さな逆バイアスを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-12-09T08:16:20Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Identifiability of Sparse Causal Effects using Instrumental Variables [5.368313160283353]
弱条件下では因果係数が識別可能であることが証明され、因果関係の親の数と同じくらい楽器の数が小さいモデルでも特定できる。
推定器として spaceIV を提案し,モデルが同定可能であれば因果効果を常に推定し,その性能をシミュレーションデータ上で評価する。
論文 参考訳(メタデータ) (2022-03-17T15:15:52Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - To what extent do human explanations of model behavior align with actual
model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文 参考訳(メタデータ) (2020-12-24T17:40:06Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - One Neuron to Fool Them All [12.107259467873094]
我々は、そのニューロンの出力の直接摂動に対するモデル出力の頑健さの観点から、個々のニューロンの感度を評価する。
単一感受性ニューロンのみを標的とする損失関数を用いた攻撃は、完全なモデルをターゲットにしたものと同じくらい効果的に敵の例を見つける。
論文 参考訳(メタデータ) (2020-03-20T16:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。