論文の概要: Inverse Reinforcement Learning by Estimating Expertise of Demonstrators
- arxiv url: http://arxiv.org/abs/2402.01886v1
- Date: Fri, 2 Feb 2024 20:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:41:45.891948
- Title: Inverse Reinforcement Learning by Estimating Expertise of Demonstrators
- Title(参考訳): 実証者の熟練度推定による逆強化学習
- Authors: Mark Beliaev, Ramtin Pedarsani
- Abstract要約: IRLEED(Inverse Reinforcement Learning by Estimating Expertise of Demonstrators)は、実証者の専門知識の事前知識なしにハードルを克服する新しいフレームワークである。
IRLEEDは既存の逆強化学習(IRL)アルゴリズムを強化し、報酬バイアスと行動分散に対処するために、実証者準最適性のための一般的なモデルを組み合わせる。
オンラインおよびオフラインのIL設定、シミュレーションと人為的なデータによる実験は、IRLEEDの適応性と有効性を示している。
- 参考スコア(独自算出の注目度): 18.50354748863624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Imitation Learning (IL), utilizing suboptimal and heterogeneous
demonstrations presents a substantial challenge due to the varied nature of
real-world data. However, standard IL algorithms consider these datasets as
homogeneous, thereby inheriting the deficiencies of suboptimal demonstrators.
Previous approaches to this issue typically rely on impractical assumptions
like high-quality data subsets, confidence rankings, or explicit environmental
knowledge. This paper introduces IRLEED, Inverse Reinforcement Learning by
Estimating Expertise of Demonstrators, a novel framework that overcomes these
hurdles without prior knowledge of demonstrator expertise. IRLEED enhances
existing Inverse Reinforcement Learning (IRL) algorithms by combining a general
model for demonstrator suboptimality to address reward bias and action
variance, with a Maximum Entropy IRL framework to efficiently derive the
optimal policy from diverse, suboptimal demonstrations. Experiments in both
online and offline IL settings, with simulated and human-generated data,
demonstrate IRLEED's adaptability and effectiveness, making it a versatile
solution for learning from suboptimal demonstrations.
- Abstract(参考訳): 模倣学習(il:imitation learning)では,実世界のデータの性質が多様であるため,準最適および不均一な実演の活用が大きな課題となっている。
しかし、標準のILアルゴリズムはこれらのデータセットを均質とみなし、したがって準最適デモンストレータの欠陥を継承する。
この問題に対する以前のアプローチは、通常、高品質なデータサブセット、信頼性ランキング、明示的な環境知識のような非現実的な仮定に依存している。
本稿では,実証者の専門知識を事前に理解せずにこれらのハードルを克服する新しい枠組みであるIRLEED, Inverse Reinforcement Learning by Estimating Expertise of Demonstratorsを紹介する。
irleedは、報酬バイアスとアクション分散に対処するためのデモンストレータサブオプティリティの一般モデルと、多様なサブオプティマイズから最適なポリシーを効率的に導出するための最大エントロピーirlフレームワークを組み合わせることで、既存の逆強化学習(irl)アルゴリズムを強化する。
オンラインおよびオフラインのIL設定、シミュレーションおよび人為的なデータによる実験は、IRLEEDの適応性と有効性を示し、最適以下のデモンストレーションから学習するための汎用的なソリューションである。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - D-Shape: Demonstration-Shaped Reinforcement Learning via Goal
Conditioning [48.57484755946714]
D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である
本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。
スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
論文 参考訳(メタデータ) (2022-10-26T02:28:32Z) - Discriminator-Guided Model-Based Offline Imitation Learning [11.856949845359853]
オフライン模倣学習(英: offline mimicion learning, IL)は、報酬ラベルなしで専門家によるデモンストレーションから意思決定問題を解決する強力な手法である。
本稿では,モデルロールアウトデータの動的正当性と準最適性を同時に識別する識別器を導入する,識別器誘導型モデルベースオフライン学習(DMIL)フレームワークを提案する。
実験結果から,DMILとその拡張は,小規模なデータセット下での最先端のオフラインIL法と比較して,優れた性能とロバスト性が得られることが示された。
論文 参考訳(メタデータ) (2022-07-01T07:28:18Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。