論文の概要: Partial Identifiability in Inverse Reinforcement Learning For Agents With Non-Exponential Discounting
- arxiv url: http://arxiv.org/abs/2412.11155v1
- Date: Sun, 15 Dec 2024 11:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:24.419437
- Title: Partial Identifiability in Inverse Reinforcement Learning For Agents With Non-Exponential Discounting
- Title(参考訳): 非指数分散エージェントの逆強化学習における部分的識別可能性
- Authors: Joar Skalse, Alessandro Abate,
- Abstract要約: 逆強化学習は、エージェントの振る舞いを観察することから、エージェントの好みを推測することを目的としている。
IRLの主な課題の1つは、複数の選好が同じ観察行動を引き起こす可能性があることである。
一般にIRLは、正しい最適ポリシーを特定するのに、$R$に関する十分な情報を推測できないことを示す。
- 参考スコア(独自算出の注目度): 64.13583792391783
- License:
- Abstract: The aim of inverse reinforcement learning (IRL) is to infer an agent's preferences from observing their behaviour. Usually, preferences are modelled as a reward function, $R$, and behaviour is modelled as a policy, $\pi$. One of the central difficulties in IRL is that multiple preferences may lead to the same observed behaviour. That is, $R$ is typically underdetermined by $\pi$, which means that $R$ is only partially identifiable. Recent work has characterised the extent of this partial identifiability for different types of agents, including optimal and Boltzmann-rational agents. However, work so far has only considered agents that discount future reward exponentially: this is a serious limitation, especially given that extensive work in the behavioural sciences suggests that humans are better modelled as discounting hyperbolically. In this work, we newly characterise partial identifiability in IRL for agents with non-exponential discounting: our results are in particular relevant for hyperbolical discounting, but they also more generally apply to agents that use other types of (non-exponential) discounting. We significantly show that generally IRL is unable to infer enough information about $R$ to identify the correct optimal policy, which entails that IRL alone can be insufficient to adequately characterise the preferences of such agents.
- Abstract(参考訳): 逆強化学習(IRL)の目的は、エージェントの振る舞いを観察することから、エージェントの好みを推測することである。
通常、好みは報酬関数、$R$としてモデル化され、振る舞いはポリシー、$\pi$としてモデル化される。
IRLの主な課題の1つは、複数の選好が同じ観察行動を引き起こす可能性があることである。
つまり、$R$は通常$\pi$によって過小評価される。
最近の研究は、最適およびボルツマン有理化剤を含む様々な種類のエージェントに対するこの部分的識別可能性の範囲を特徴づけている。
これは特に行動科学における広範な研究が、人間は双曲的に割引するものとしてモデル化されていることを示唆していることを考えると、深刻な制限である。
本研究では,非排他的割引を行うエージェントに対するIRLの部分的識別可能性について,特に双曲的割引に関係があるが,他の種類の非排他的割引を使用するエージェントに対しても適用が一般的である。
一般にIRLは適切なポリシーを特定するのに$R$に関する十分な情報を推測することができず、IRLだけではそのようなエージェントの嗜好を適切に特徴づけるには不十分であることを示す。
関連論文リスト
- Partial Identifiability and Misspecification in Inverse Reinforcement Learning [64.13583792391783]
Inverse Reinforcement Learning の目的は、報酬関数 $R$ をポリシー $pi$ から推論することである。
本稿では,IRLにおける部分的識別性と不特定性について包括的に分析する。
論文 参考訳(メタデータ) (2024-11-24T18:35:46Z) - Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification [72.08225446179783]
逆強化学習は、エージェントの行動からエージェントの好みを推測することを目的としている。
これを行うには、$pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
我々は、IRL問題が行動モデルの不特定性にどれほど敏感であるかを分析する。
論文 参考訳(メタデータ) (2024-03-11T16:09:39Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Asymptotic Statistical Analysis of $f$-divergence GAN [13.587087960403199]
GAN(Generative Adversarial Networks)は、データ生成において大きな成功を収めている。
GANの一般$f$-divergence定式化の統計的挙動を考察する。
得られた推定方法は、Adversarial Gradient Estimation (AGE)と呼ばれる。
論文 参考訳(メタデータ) (2022-09-14T18:08:37Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Bounded Incentives in Manipulating the Probabilistic Serial Rule [8.309903898123526]
確率的シリアルはインセンティブ互換ではない。
戦略行動による実質的な実用性の向上は、自己関心のエージェントがメカニズムを操作するきっかけとなる。
このメカニズムのインセンティブ比が$frac32$であることを示す。
論文 参考訳(メタデータ) (2020-01-28T23:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。