論文の概要: SubIQ: Inverse Soft-Q Learning for Offline Imitation with Suboptimal
Demonstrations
- arxiv url: http://arxiv.org/abs/2402.13147v1
- Date: Tue, 20 Feb 2024 17:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:17:01.281727
- Title: SubIQ: Inverse Soft-Q Learning for Offline Imitation with Suboptimal
Demonstrations
- Title(参考訳): SubIQ: 準最適デモによるオフライン模倣のための逆ソフトQ学習
- Authors: Huy Hoang, Tien Mai, Pradeep Varakantham
- Abstract要約: オフライン模倣学習(英: offline mimicion learning, IL)は、環境とのさらなる相互作用を伴わずに、その実演から専門家の行動を模倣することを目的としている。
オフラインILの主な課題の1つは、専門家によるデモンストレーションの限られたサポートを扱うことである。
本稿では,逆ソフトQ学習に基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 13.112202426665466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider offline imitation learning (IL), which aims to mimic the expert's
behavior from its demonstration without further interaction with the
environment. One of the main challenges in offline IL is dealing with the
limited support of expert demonstrations that cover only a small fraction of
the state-action spaces. In this work, we consider offline IL, where expert
demonstrations are limited but complemented by a larger set of sub-optimal
demonstrations of lower expertise levels. Most of the existing offline IL
methods developed for this setting are based on behavior cloning or
distribution matching, where the aim is to match the occupancy distribution of
the imitation policy with that of the expert policy. Such an approach often
suffers from over-fitting, as expert demonstrations are limited to accurately
represent any occupancy distribution. On the other hand, since sub-optimal sets
are much larger, there is a high chance that the imitation policy is trained
towards sub-optimal policies. In this paper, to address these issues, we
propose a new approach based on inverse soft-Q learning, where a regularization
term is added to the training objective, with the aim of aligning the learned
rewards with a pre-assigned reward function that allocates higher weights to
state-action pairs from expert demonstrations, and lower weights to those from
lower expertise levels. On standard benchmarks, our inverse soft-Q learning
significantly outperforms other offline IL baselines by a large margin.
- Abstract(参考訳): 我々は,オフライン模倣学習(il)について検討する。これは,環境との相互作用を増すことなく,その実演から専門家の行動を模倣することを目的としている。
オフラインILの主な課題の1つは、少数の状態アクション空間をカバーする専門家によるデモンストレーションの限定的なサポートを扱うことである。
本研究では,専門家による実演は限定されているが,より低い専門知識レベルでのより大規模な副最適実演によって補完されるオフラインilについて考察する。
この設定のために開発された既存のオフラインilメソッドのほとんどは、模倣ポリシーの占有率分布をエキスパートポリシーのそれと一致させることを目的として、振る舞いのクローン化または分散マッチングに基づいている。
このようなアプローチはしばしば過剰フィッティングに苦しめられ、専門家によるデモンストレーションは占有率分布を正確に表現するために制限される。
一方、サブ最適集合ははるかに大きいので、模倣ポリシーがサブ最適政策に向けて訓練される可能性が高い。
本稿では,これらの課題に対処するため,訓練対象に正規化用語を付加した逆ソフトQ学習に基づく新しい手法を提案する。
標準ベンチマークでは、逆ソフトq学習が他のオフラインilベースラインを大きく上回っている。
関連論文リスト
- Expert Proximity as Surrogate Rewards for Single Demonstration Imitation
Learning [55.070965595078285]
IL(Single-demonstration mimicion Learning)は、現実のアプリケーションにおいて、多くの専門家によるデモンストレーションを得ることがコストのかかる、あるいは実現不可能な実践的なアプローチである。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-01T23:06:19Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [99.7952627335176]
拡散モデルは、行動クローニングとオフライン強化学習においてアクターポリシーを表現するために一般的な選択肢となっている。
それまでの作業では、拡散モデルのスコアベース構造を活用できず、代わりに単純な行動クローニング用語を使用してアクターを訓練した。
本稿では,Q関数のスコアと行動勾配の関連構造を利用した拡散モデルポリシーの学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Goal-conditioned Offline Reinforcement Learning through State Space
Partitioning [9.049629596156473]
オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。
我々は,その利点にもかかわらず,分散シフトやマルチモダリティ問題を完全に解決するには,このアプローチは依然として不十分である,と論じる。
本稿では,帰納的バイアスの新たな源となる相補的優位性に基づく重み付け手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T14:52:53Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z) - State-only Imitation with Transition Dynamics Mismatch [16.934888672659824]
イミテーションラーニング(Imitation Learning, IL)は、専門家の行動を活用することで、複雑な目標を達成するための訓練エージェントにとって一般的なパラダイムである。
本稿では,新しい状態のみのILアルゴリズムを提案する。
提案アルゴリズムは,専門家と模倣MDPの間に遷移力学ミスマッチが存在する場合,特に有効であることを示す。
論文 参考訳(メタデータ) (2020-02-27T02:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。