論文の概要: SPRINQL: Sub-optimal Demonstrations driven Offline Imitation Learning
- arxiv url: http://arxiv.org/abs/2402.13147v3
- Date: Thu, 10 Oct 2024 19:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:29:40.528357
- Title: SPRINQL: Sub-optimal Demonstrations driven Offline Imitation Learning
- Title(参考訳): SPRINQL: オフライン模倣学習による準最適デモ
- Authors: Huy Hoang, Tien Mai, Pradeep Varakantham,
- Abstract要約: オフライン模倣学習(英: offline mimicion learning, IL)は、環境との相互作用なしに実演を用いて専門家の行動を模倣することを目的としている。
我々は,専門家の軌道を効果的に模倣しながら,より大規模な準最適実演を利用するオフラインIL手法を提案する。
我々のアプローチは、逆ソフトQ学習に基づいており、専門家と準最適実証の両方から学習する。
- 参考スコア(独自算出の注目度): 11.666700714916065
- License:
- Abstract: We focus on offline imitation learning (IL), which aims to mimic an expert's behavior using demonstrations without any interaction with the environment. One of the main challenges in offline IL is the limited support of expert demonstrations, which typically cover only a small fraction of the state-action space. While it may not be feasible to obtain numerous expert demonstrations, it is often possible to gather a larger set of sub-optimal demonstrations. For example, in treatment optimization problems, there are varying levels of doctor treatments available for different chronic conditions. These range from treatment specialists and experienced general practitioners to less experienced general practitioners. Similarly, when robots are trained to imitate humans in routine tasks, they might learn from individuals with different levels of expertise and efficiency. In this paper, we propose an offline IL approach that leverages the larger set of sub-optimal demonstrations while effectively mimicking expert trajectories. Existing offline IL methods based on behavior cloning or distribution matching often face issues such as overfitting to the limited set of expert demonstrations or inadvertently imitating sub-optimal trajectories from the larger dataset. Our approach, which is based on inverse soft-Q learning, learns from both expert and sub-optimal demonstrations. It assigns higher importance (through learned weights) to aligning with expert demonstrations and lower importance to aligning with sub-optimal ones. A key contribution of our approach, called SPRINQL, is transforming the offline IL problem into a convex optimization over the space of Q functions. Through comprehensive experimental evaluations, we demonstrate that the SPRINQL algorithm achieves state-of-the-art (SOTA) performance on offline IL benchmarks. Code is available at https://github.com/hmhuy0/SPRINQL.
- Abstract(参考訳): 我々は,環境との相互作用を伴わずに実演を用いて専門家の行動を模倣することを目的とした,オフライン模倣学習(IL)に焦点を当てた。
オフラインILの主な課題の1つは、専門家によるデモンストレーションの限定的なサポートである。
多くの専門家によるデモンストレーションを入手することは不可能かもしれないが、より大規模な準最適デモを収集することはしばしば可能である。
例えば、治療最適化問題では、異なる慢性疾患に対してさまざまなレベルの医師治療が利用可能である。
これらは、治療専門家や経験豊富な一般開業医から経験の浅い一般開業医まで様々である。
同様に、ロボットが通常のタスクで人間を模倣するように訓練されている場合、異なるレベルの専門知識と効率性を持つ個人から学ぶことができる。
本稿では,専門家の軌道を効果的に模倣しながら,より大規模な準最適実演を生かしたオフラインIL手法を提案する。
動作のクローン化や分散マッチングに基づく既存のオフラインILメソッドは、専門家によるデモの限られたセットに過度に適合したり、より大きなデータセットから最適なサブトラジェクトリを不注意に模倣したりするといった問題に直面していることが多い。
我々のアプローチは、逆ソフトQ学習に基づいており、専門家と準最適実証の両方から学習する。
専門家のデモンストレーションとの整合性に(学習した重みを通して)より高い重要性を割り当て、サブ最適のデモとの整合性に低い重要性を割り当てる。
我々のアプローチの重要な貢献は、SPRINQLと呼ばれ、オフラインのIL問題をQ関数の空間上の凸最適化に変換することである。
本研究では,SPRINQLアルゴリズムがオフラインILベンチマーク上でのSOTA(State-of-the-art)性能を実現することを実証する。
コードはhttps://github.com/hmhuy0/SPRINQLで入手できる。
関連論文リスト
- Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - How to Leverage Diverse Demonstrations in Offline Imitation Learning [39.24627312800116]
不完全な実演を伴うオフライン模倣学習(IL)は、専門家データの不足により注目を集めている。
本稿では, 結果の状態に基づいて正の挙動を識別する, 単純で効果的なデータ選択手法を提案する。
次に、専門家と選択したデータを正しく活用できる軽量な行動クローニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-05-24T04:56:39Z) - Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning [51.972577689963714]
IL(Single-demonstration mimicion Learning)は、複数の専門家による実演の取得がコストのかかる、あるいは実現不可能な実世界のアプリケーションに対して、実践的なアプローチである。
典型的なIL設定とは対照的に、シングルデモレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-01T23:06:19Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Self-Imitation Learning from Demonstrations [4.907551775445731]
セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
論文 参考訳(メタデータ) (2022-03-21T11:56:56Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z) - State-only Imitation with Transition Dynamics Mismatch [16.934888672659824]
イミテーションラーニング(Imitation Learning, IL)は、専門家の行動を活用することで、複雑な目標を達成するための訓練エージェントにとって一般的なパラダイムである。
本稿では,新しい状態のみのILアルゴリズムを提案する。
提案アルゴリズムは,専門家と模倣MDPの間に遷移力学ミスマッチが存在する場合,特に有効であることを示す。
論文 参考訳(メタデータ) (2020-02-27T02:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。