論文の概要: SubIQ: Inverse Soft-Q Learning for Offline Imitation with Suboptimal
Demonstrations
- arxiv url: http://arxiv.org/abs/2402.13147v1
- Date: Tue, 20 Feb 2024 17:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:17:01.281727
- Title: SubIQ: Inverse Soft-Q Learning for Offline Imitation with Suboptimal
Demonstrations
- Title(参考訳): SubIQ: 準最適デモによるオフライン模倣のための逆ソフトQ学習
- Authors: Huy Hoang, Tien Mai, Pradeep Varakantham
- Abstract要約: オフライン模倣学習(英: offline mimicion learning, IL)は、環境とのさらなる相互作用を伴わずに、その実演から専門家の行動を模倣することを目的としている。
オフラインILの主な課題の1つは、専門家によるデモンストレーションの限られたサポートを扱うことである。
本稿では,逆ソフトQ学習に基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 13.112202426665466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider offline imitation learning (IL), which aims to mimic the expert's
behavior from its demonstration without further interaction with the
environment. One of the main challenges in offline IL is dealing with the
limited support of expert demonstrations that cover only a small fraction of
the state-action spaces. In this work, we consider offline IL, where expert
demonstrations are limited but complemented by a larger set of sub-optimal
demonstrations of lower expertise levels. Most of the existing offline IL
methods developed for this setting are based on behavior cloning or
distribution matching, where the aim is to match the occupancy distribution of
the imitation policy with that of the expert policy. Such an approach often
suffers from over-fitting, as expert demonstrations are limited to accurately
represent any occupancy distribution. On the other hand, since sub-optimal sets
are much larger, there is a high chance that the imitation policy is trained
towards sub-optimal policies. In this paper, to address these issues, we
propose a new approach based on inverse soft-Q learning, where a regularization
term is added to the training objective, with the aim of aligning the learned
rewards with a pre-assigned reward function that allocates higher weights to
state-action pairs from expert demonstrations, and lower weights to those from
lower expertise levels. On standard benchmarks, our inverse soft-Q learning
significantly outperforms other offline IL baselines by a large margin.
- Abstract(参考訳): 我々は,オフライン模倣学習(il)について検討する。これは,環境との相互作用を増すことなく,その実演から専門家の行動を模倣することを目的としている。
オフラインILの主な課題の1つは、少数の状態アクション空間をカバーする専門家によるデモンストレーションの限定的なサポートを扱うことである。
本研究では,専門家による実演は限定されているが,より低い専門知識レベルでのより大規模な副最適実演によって補完されるオフラインilについて考察する。
この設定のために開発された既存のオフラインilメソッドのほとんどは、模倣ポリシーの占有率分布をエキスパートポリシーのそれと一致させることを目的として、振る舞いのクローン化または分散マッチングに基づいている。
このようなアプローチはしばしば過剰フィッティングに苦しめられ、専門家によるデモンストレーションは占有率分布を正確に表現するために制限される。
一方、サブ最適集合ははるかに大きいので、模倣ポリシーがサブ最適政策に向けて訓練される可能性が高い。
本稿では,これらの課題に対処するため,訓練対象に正規化用語を付加した逆ソフトQ学習に基づく新しい手法を提案する。
標準ベンチマークでは、逆ソフトq学習が他のオフラインilベースラインを大きく上回っている。
関連論文リスト
- Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - How to Leverage Diverse Demonstrations in Offline Imitation Learning [39.24627312800116]
不完全な実演を伴うオフライン模倣学習(IL)は、専門家データの不足により注目を集めている。
本稿では, 結果の状態に基づいて正の挙動を識別する, 単純で効果的なデータ選択手法を提案する。
次に、専門家と選択したデータを正しく活用できる軽量な行動クローニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-05-24T04:56:39Z) - Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning [51.972577689963714]
IL(Single-demonstration mimicion Learning)は、複数の専門家による実演の取得がコストのかかる、あるいは実現不可能な実世界のアプリケーションに対して、実践的なアプローチである。
典型的なIL設定とは対照的に、シングルデモレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-01T23:06:19Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Self-Imitation Learning from Demonstrations [4.907551775445731]
セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
論文 参考訳(メタデータ) (2022-03-21T11:56:56Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z) - State-only Imitation with Transition Dynamics Mismatch [16.934888672659824]
イミテーションラーニング(Imitation Learning, IL)は、専門家の行動を活用することで、複雑な目標を達成するための訓練エージェントにとって一般的なパラダイムである。
本稿では,新しい状態のみのILアルゴリズムを提案する。
提案アルゴリズムは,専門家と模倣MDPの間に遷移力学ミスマッチが存在する場合,特に有効であることを示す。
論文 参考訳(メタデータ) (2020-02-27T02:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。