論文の概要: Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification
- arxiv url: http://arxiv.org/abs/2403.06854v1
- Date: Mon, 11 Mar 2024 16:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:27:21.895644
- Title: Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification
- Title(参考訳): 逆強化学習の誤識別に対する感度の定量化
- Authors: Joar Skalse and Alessandro Abate
- Abstract要約: 逆強化学習は、エージェントの行動からエージェントの好みを推測することを目的としている。
これを行うには、$pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
我々は、IRL問題が行動モデルの不特定性にどれほど敏感であるかを分析する。
- 参考スコア(独自算出の注目度): 72.08225446179783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) aims to infer an agent's preferences
(represented as a reward function $R$) from their behaviour (represented as a
policy $\pi$). To do this, we need a behavioural model of how $\pi$ relates to
$R$. In the current literature, the most common behavioural models are
optimality, Boltzmann-rationality, and causal entropy maximisation. However,
the true relationship between a human's preferences and their behaviour is much
more complex than any of these behavioural models. This means that the
behavioural models are misspecified, which raises the concern that they may
lead to systematic errors if applied to real data. In this paper, we analyse
how sensitive the IRL problem is to misspecification of the behavioural model.
Specifically, we provide necessary and sufficient conditions that completely
characterise how the observed data may differ from the assumed behavioural
model without incurring an error above a given threshold. In addition to this,
we also characterise the conditions under which a behavioural model is robust
to small perturbations of the observed policy, and we analyse how robust many
behavioural models are to misspecification of their parameter values (such as
e.g.\ the discount rate). Our analysis suggests that the IRL problem is highly
sensitive to misspecification, in the sense that very mild misspecification can
lead to very large errors in the inferred reward function.
- Abstract(参考訳): 逆強化学習(IRL)は、エージェントの行動(ポリシー$\pi$)からエージェントの好み(報酬関数$R$と表現される)を推論することを目的としている。
これを行うには、$\pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
現在の文献では、最も一般的な行動モデルは最適性、ボルツマン有理性、因果エントロピー最大化である。
しかしながら、人間の好みと行動の間の真の関係は、これらの行動モデルよりもはるかに複雑である。
これは、振る舞いモデルが誤って特定され、実際のデータに適用した場合、体系的なエラーにつながる可能性があるという懸念を引き起こすことを意味する。
本稿では,IRLの問題点が行動モデルの誤特定にどれほど敏感かを分析する。
具体的には、与えられたしきい値以上の誤差を発生させることなく、観測データと想定された行動モデルとの違いを完全に特徴付ける必要十分条件を提供する。
これに加えて、観測されたポリシーの小さな摂動に対して行動モデルが堅牢である条件を特徴付けるとともに、パラメータ値(例えば、割引率)の誤特定に対して、多くの行動モデルがどれほど堅牢であるかを分析する。
分析の結果,IRL問題は非常に軽度なミス種別が推論された報酬関数に非常に大きな誤差をもたらす可能性があるため,ミス種別に非常に敏感であることが示唆された。
関連論文リスト
- Partial Identifiability and Misspecification in Inverse Reinforcement Learning [64.13583792391783]
Inverse Reinforcement Learning の目的は、報酬関数 $R$ をポリシー $pi$ から推論することである。
本稿では,IRLにおける部分的識別性と不特定性について包括的に分析する。
論文 参考訳(メタデータ) (2024-11-24T18:35:46Z) - Uncertainty-aware Human Mobility Modeling and Anomaly Detection [28.311683535974634]
本研究では,効率的な異常検出に向けて,人間のエージェントの移動行動のモデル化方法について検討する。
我々はGPSデータを時系列の静止点イベントとして使用し、それぞれに時間的特徴を特徴付ける。
数万のエージェントによる大規模専門家シミュレーションデータセットの実験は、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-02T06:57:08Z) - Inverse decision-making using neural amortized Bayesian actors [19.128377007314317]
我々は、教師なしの方法で幅広いパラメータ設定で訓練されたニューラルネットワークを用いてベイズアクターを記憶する。
推定された後続分布は,その存在する解析解を用いて得られた分布と密接に一致していることを示す。
そして、より複雑なコスト関数において、先行とコストの間の識別可能性の問題が発生することを示した。
論文 参考訳(メタデータ) (2024-09-04T10:31:35Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - On the Sensitivity of Reward Inference to Misspecified Human Models [27.94055657571769]
人間の振る舞いから報酬関数を推論することは、価値の整合の中心であり、AIの目標と私たち、人間、実際に望むものとを整合させる。
これらのモデルは、報酬の推測が正確になるために、どの程度正確なものが必要なのか?
提案手法は, 推定報酬において, 任意に大きな誤差を生じさせるような, 行動の小さな逆バイアスを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-12-09T08:16:20Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。