Fugu-MT 論文翻訳(概要): Quantifying the Sensitivity of Inverse Reinforcement Learning to Misspecification

論文の概要: Quantifying the Sensitivity of Inverse Reinforcement Learning to Misspecification

arxiv url: http://arxiv.org/abs/2403.06854v1
Date: Mon, 11 Mar 2024 16:09:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 18:27:21.895644
Title: Quantifying the Sensitivity of Inverse Reinforcement Learning to Misspecification
Title（参考訳）: 逆強化学習の誤識別に対する感度の定量化
Authors: Joar Skalse and Alessandro Abate
Abstract要約: 逆強化学習は、エージェントの行動からエージェントの好みを推測することを目的としている。これを行うには、$pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。我々は、IRL問題が行動モデルの不特定性にどれほど敏感であるかを分析する。
参考スコア（独自算出の注目度）: 72.08225446179783
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inverse reinforcement learning (IRL) aims to infer an agent's preferences (represented as a reward function $R$) from their behaviour (represented as a policy $\pi$). To do this, we need a behavioural model of how $\pi$ relates to $R$. In the current literature, the most common behavioural models are optimality, Boltzmann-rationality, and causal entropy maximisation. However, the true relationship between a human's preferences and their behaviour is much more complex than any of these behavioural models. This means that the behavioural models are misspecified, which raises the concern that they may lead to systematic errors if applied to real data. In this paper, we analyse how sensitive the IRL problem is to misspecification of the behavioural model. Specifically, we provide necessary and sufficient conditions that completely characterise how the observed data may differ from the assumed behavioural model without incurring an error above a given threshold. In addition to this, we also characterise the conditions under which a behavioural model is robust to small perturbations of the observed policy, and we analyse how robust many behavioural models are to misspecification of their parameter values (such as e.g.\ the discount rate). Our analysis suggests that the IRL problem is highly sensitive to misspecification, in the sense that very mild misspecification can lead to very large errors in the inferred reward function.
Abstract（参考訳）: 逆強化学習(IRL)は、エージェントの行動(ポリシー$\pi$)からエージェントの好み(報酬関数$R$と表現される)を推論することを目的としている。これを行うには、$\pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。現在の文献では、最も一般的な行動モデルは最適性、ボルツマン有理性、因果エントロピー最大化である。しかしながら、人間の好みと行動の間の真の関係は、これらの行動モデルよりもはるかに複雑である。これは、振る舞いモデルが誤って特定され、実際のデータに適用した場合、体系的なエラーにつながる可能性があるという懸念を引き起こすことを意味する。本稿では,IRLの問題点が行動モデルの誤特定にどれほど敏感かを分析する。具体的には、与えられたしきい値以上の誤差を発生させることなく、観測データと想定された行動モデルとの違いを完全に特徴付ける必要十分条件を提供する。これに加えて、観測されたポリシーの小さな摂動に対して行動モデルが堅牢である条件を特徴付けるとともに、パラメータ値(例えば、割引率)の誤特定に対して、多くの行動モデルがどれほど堅牢であるかを分析する。分析の結果,IRL問題は非常に軽度なミス種別が推論された報酬関数に非常に大きな誤差をもたらす可能性があるため,ミス種別に非常に敏感であることが示唆された。

関連論文リスト

Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文参考訳（メタデータ） (2025-06-06T10:45:42Z)
Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文参考訳（メタデータ） (2025-05-17T00:31:39Z)
Partial Identifiability in Inverse Reinforcement Learning For Agents With Non-Exponential Discounting [64.13583792391783]
逆強化学習は、エージェントの振る舞いを観察することから、エージェントの好みを推測することを目的としている。 IRLの主な課題の1つは、複数の選好が同じ観察行動を引き起こす可能性があることである。一般にIRLは、正しい最適ポリシーを特定するのに、$R$に関する十分な情報を推測できないことを示す。
論文参考訳（メタデータ） (2024-12-15T11:08:58Z)
Partial Identifiability and Misspecification in Inverse Reinforcement Learning [64.13583792391783]
Inverse Reinforcement Learning の目的は、報酬関数 $R$ をポリシー $pi$ から推論することである。本稿では,IRLにおける部分的識別性と不特定性について包括的に分析する。
論文参考訳（メタデータ） (2024-11-24T18:35:46Z)
Uncertainty-aware Human Mobility Modeling and Anomaly Detection [28.311683535974634]
本研究では,効率的な異常検出に向けて,人間のエージェントの移動行動のモデル化方法について検討する。我々はGPSデータを時系列の静止点イベントとして使用し、それぞれに時間的特徴を特徴付ける。数万のエージェントによる大規模専門家シミュレーションデータセットの実験は、我々のモデルの有効性を実証している。
論文参考訳（メタデータ） (2024-10-02T06:57:08Z)
Inverse decision-making using neural amortized Bayesian actors [19.128377007314317]
我々は、教師なしの方法で幅広いパラメータ設定で訓練されたニューラルネットワークを用いてベイズアクターを記憶する。推定された後続分布は,その存在する解析解を用いて得られた分布と密接に一致していることを示す。そして、より複雑なコスト関数において、先行とコストの間の識別可能性の問題が発生することを示した。
論文参考訳（メタデータ） (2024-09-04T10:31:35Z)
Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文参考訳（メタデータ） (2024-02-15T00:20:30Z)
Robust Counterfactual Explanations for Neural Networks With Probabilistic Guarantees [11.841312820944774]
我々は、微分可能なモデルに対する潜在的なモデル変更に対する反ファクトの堅牢性を定量化するために、 $textitStability$ と呼ぶ尺度を提案します。私たちの主な貢献は、十分高い値のtextitStability$の反ファクトが、高い確率でポテンシャルモデルが変化した後も有効であることを示すことです。
論文参考訳（メタデータ） (2023-05-19T20:48:05Z)
On the Sensitivity of Reward Inference to Misspecified Human Models [27.94055657571769]
人間の振る舞いから報酬関数を推論することは、価値の整合の中心であり、AIの目標と私たち、人間、実際に望むものとを整合させる。これらのモデルは、報酬の推測が正確になるために、どの程度正確なものが必要なのか? 提案手法は, 推定報酬において, 任意に大きな誤差を生じさせるような, 行動の小さな逆バイアスを構築することが可能であることを示す。
論文参考訳（メタデータ） (2022-12-09T08:16:20Z)
Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。 IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文参考訳（メタデータ） (2022-12-06T18:21:47Z)
Estimation of Bivariate Structural Causal Models by Variational Gaussian Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文参考訳（メタデータ） (2021-09-06T14:52:58Z)
Goal-directed Generation of Discrete Structures with Conditional Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文参考訳（メタデータ） (2020-10-05T20:03:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。