論文の概要: TRAIL: Near-Optimal Imitation Learning with Suboptimal Data
- arxiv url: http://arxiv.org/abs/2110.14770v1
- Date: Wed, 27 Oct 2021 21:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-30 11:00:58.240295
- Title: TRAIL: Near-Optimal Imitation Learning with Suboptimal Data
- Title(参考訳): TRAIL: 準最適データを用いた準最適模倣学習
- Authors: Mengjiao Yang, Sergey Levine, Ofir Nachum
- Abstract要約: オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
- 参考スコア(独自算出の注目度): 100.83688818427915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim in imitation learning is to learn effective policies by utilizing
near-optimal expert demonstrations. However, high-quality demonstrations from
human experts can be expensive to obtain in large numbers. On the other hand,
it is often much easier to obtain large quantities of suboptimal or
task-agnostic trajectories, which are not useful for direct imitation, but can
nevertheless provide insight into the dynamical structure of the environment,
showing what could be done in the environment even if not what should be done.
We ask the question, is it possible to utilize such suboptimal offline datasets
to facilitate provably improved downstream imitation learning? In this work, we
answer this question affirmatively and present training objectives that use
offline datasets to learn a factored transition model whose structure enables
the extraction of a latent action space. Our theoretical analysis shows that
the learned latent action space can boost the sample-efficiency of downstream
imitation learning, effectively reducing the need for large near-optimal expert
datasets through the use of auxiliary non-expert data. To learn the latent
action space in practice, we propose TRAIL (Transition-Reparametrized Actions
for Imitation Learning), an algorithm that learns an energy-based transition
model contrastively, and uses the transition model to reparametrize the action
space for sample-efficient imitation learning. We evaluate the practicality of
our objective through experiments on a set of navigation and locomotion tasks.
Our results verify the benefits suggested by our theory and show that TRAIL is
able to improve baseline imitation learning by up to 4x in performance.
- Abstract(参考訳): 模倣学習の目的は、準最適専門家による実演を利用して効果的な政策を学ぶことである。
しかし、人間の専門家による高品質なデモンストレーションは、大量に得るには高価である。
一方で、直接模倣には役に立たないが、環境の動的構造についての洞察を提供することができ、たとえ何をすべきでなくても、環境において何ができるのかを示すことができる。
このような最適化されたオフラインデータセットを使うことで、下流の模倣学習が確実に改善できるだろうか?
本稿では,この質問に肯定的に答え,オフラインデータセットを用いて潜在アクション空間の抽出を可能にする構造を持つ因子付き遷移モデルを学ぶためのトレーニング目標を提案する。
理論的解析により,学習された潜在活動空間は下流の模倣学習のサンプル効率を向上し,補助的非専門家データを用いることで,大規模に最適に近いエキスパートデータセットの必要性を効果的に低減できることが示された。
実際の潜在動作空間を学習するために,エネルギーベースの遷移モデルを対比的に学習するアルゴリズムである trail (transition-reparametrized actions for imitation learning) を提案する。
ナビゲーションタスクとロコモーションタスクのセットに関する実験を通じて,目的の実用性を評価する。
提案手法の利点を検証し,TRAILが最大4倍の性能でベースライン模倣学習を向上できることを示す。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Perception Without Vision for Trajectory Prediction: Ego Vehicle Dynamics as Scene Representation for Efficient Active Learning in Autonomous Driving [0.0]
本研究では,アクティブラーニングフレームワークにおける軌道状態とサンプリング戦略のクラスタリング手法を提案する。
トラジェクティブ・ステートインフォームド・アクティブ・ラーニングを統合することで、より効率的で堅牢な自動運転システムが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-15T02:54:11Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - How To Guide Your Learner: Imitation Learning with Active Adaptive
Expert Involvement [20.91491585498749]
本稿では,教師と学生のインタラクションモデルに基づく,新しいアクティブな模倣学習フレームワークを提案する。
本稿では,AdapMenによるエラー境界の改善と,軽度条件下での複合的エラーの回避について述べる。
論文 参考訳(メタデータ) (2023-03-03T16:44:33Z) - An Exploration of Data Efficiency in Intra-Dataset Task Transfer for
Dialog Understanding [65.75873687351553]
本研究は,対話領域における逐次移動学習における目標タスク訓練データ量の影響について検討する。
非意図的に、我々のデータでは、タスクトレーニングデータのサイズを目標とする場合、シーケンシャルトランスファーラーニングがトランスファーラーニングなしで同じモデルと比較した場合、最小限の効果が示される。
論文 参考訳(メタデータ) (2022-10-21T04:36:46Z) - Bridging the Last Mile in Sim-to-Real Robot Perception via Bayesian
Active Learning [34.910660020436424]
本研究では,ベイジアン能動学習に基づくパイプラインを提案し,手動アノテーションの取り組みを最小化することを目的とする。
本研究では,2つのオブジェクト検出データ集合に対する実験により,同値ギャップを埋めるために必要なラベル付けの労力を小さめに抑えることができることを示した。
論文 参考訳(メタデータ) (2021-09-23T14:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。