論文の概要: PAC Apprenticeship Learning with Bayesian Active Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.03693v1
- Date: Tue, 05 Aug 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.117857
- Title: PAC Apprenticeship Learning with Bayesian Active Inverse Reinforcement Learning
- Title(参考訳): ベイジアン能動逆強化学習を用いたPAC適応学習
- Authors: Ondrej Bajgar, Dewi S. W. Gould, Jonathon Liu, Alessandro Abate, Konstantinos Gatsis, Michael A. Osborne,
- Abstract要約: 逆強化学習(IRL)は、実証から好みを推測するための有望なアプローチを提供する。
PAC-EIGは情報理論の獲得機能で、学習ポリシーのほぼ正当性(PAC)を直接ターゲットとしている。
本手法は,見習い政策の後悔に関する情報の獲得を最大化し,さらなる実演を必要とする国家を効率的に同定する。
- 参考スコア(独自算出の注目度): 59.93251770120936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become increasingly autonomous, reliably aligning their decision-making to human preferences is essential. Inverse reinforcement learning (IRL) offers a promising approach to infer preferences from demonstrations. These preferences can then be used to produce an apprentice policy that performs well on the demonstrated task. However, in domains like autonomous driving or robotics, where errors can have serious consequences, we need not just good average performance but reliable policies with formal guarantees -- yet obtaining sufficient human demonstrations for reliability guarantees can be costly. Active IRL addresses this challenge by strategically selecting the most informative scenarios for human demonstration. We introduce PAC-EIG, an information-theoretic acquisition function that directly targets probably-approximately-correct (PAC) guarantees for the learned policy -- providing the first such theoretical guarantee for active IRL with noisy expert demonstrations. Our method maximises information gain about the regret of the apprentice policy, efficiently identifying states requiring further demonstration. We also present Reward-EIG as an alternative when learning the reward itself is the primary objective. Focusing on finite state-action spaces, we prove convergence bounds, illustrate failure modes of prior heuristic methods, and demonstrate our method's advantages experimentally.
- Abstract(参考訳): AIシステムはますます自律的になり、意思決定と人間の好みを確実に一致させることが不可欠だ。
逆強化学習(IRL)は、実証から好みを推測するための有望なアプローチを提供する。
これらの嗜好は、実証されたタスクでうまく機能する見習いのポリシーを作成するために使用できる。
しかし、自動運転車やロボット工学のような領域では、エラーが深刻な結果をもたらす可能性があるため、適切なパフォーマンスだけでなく、正式な保証を備えた信頼性の高いポリシーが必要である。
Active IRLはこの課題に対処し、人間のデモンストレーションにおいて最も有益なシナリオを戦略的に選択する。
PAC-EIGは,多元的正当性保証(PAC)を直接対象とする情報理論獲得関数である。
本手法は,見習い政策の後悔に関する情報の獲得を最大化し,さらなる実演を必要とする国家を効率的に同定する。
また、報酬そのものを学習する際の代替手段として、Reward-EIGを提案する。
有限状態-作用空間に着目し、収束境界を証明し、先行ヒューリスティックな手法の失敗モードを実証し、提案手法の利点を実験的に実証する。
関連論文リスト
- Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。
提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。
提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2~3倍向上する。
論文 参考訳(メタデータ) (2025-06-09T07:32:52Z) - Toward Information Theoretic Active Inverse Reinforcement Learning [0.21990652930491852]
逆強化学習(IRL)は、実証から未知の報酬を推測するための有望なアプローチを提供する。
Active IRLはこの課題に対処し、人間のデモンストレーションにおいて最も有益なシナリオを戦略的に選択する。
本稿では,情報理論の獲得関数を提案し,効率的な近似手法を提案し,グリッドワールド実験を通じてその性能を示す。
論文 参考訳(メタデータ) (2024-12-31T10:32:24Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - PAGAR: Taming Reward Misalignment in Inverse Reinforcement
Learning-Based Imitation Learning with Protagonist Antagonist Guided
Adversarial Reward [8.83374617444803]
我々は、PAGAR(Protagonist Antagonist Guided Adrial Reward)と呼ばれる半教師付き報酬設計パラダイムを導入する。
PAGARベースのILは、IRLベースのILのように単一の報酬関数ではなく、混合報酬関数の下でうまく機能するポリシーを訓練する。
提案アルゴリズムは,複雑なタスクにおいて標準のILベースラインよりも優れており,転送設定が困難であることを示す。
論文 参考訳(メタデータ) (2023-06-02T17:57:53Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Confidence-Aware Imitation Learning from Demonstrations with Varying
Optimality [30.51436098631477]
信頼を意識した模倣学習(CAIL)は、信頼を重んじたデモンストレーションから優れた政策を学ぶ。
本稿では,CAILの収束に関する理論的保証と,シミュレーションおよび実ロボット実験における性能評価を行う。
論文 参考訳(メタデータ) (2021-10-27T20:29:38Z) - Learn to Exceed: Stereo Inverse Reinforcement Learning with Concurrent
Policy Optimization [1.0965065178451106]
マルコフ決定過程において、専門家による実証を模倣し、性能を向上できる制御ポリシーを得るという課題について検討する。
主な関連する1つのアプローチは逆強化学習(IRL)であり、主に専門家によるデモンストレーションから報酬関数を推測することに焦点を当てている。
本稿では,新たな報酬と行動方針学習アプローチを通じて,学習エージェントが実証者より優れる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-21T02:16:21Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。