論文の概要: On the Sample Efficiency of Inverse Dynamics Models for Semi-Supervised Imitation Learning
- arxiv url: http://arxiv.org/abs/2602.02762v1
- Date: Mon, 02 Feb 2026 20:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.06505
- Title: On the Sample Efficiency of Inverse Dynamics Models for Semi-Supervised Imitation Learning
- Title(参考訳): 半教師付き模倣学習における逆ダイナミクスモデルのサンプル効率について
- Authors: Sacha Morin, Moonsub Byeon, Alexia Jolicoeur-Martineau, Sébastien Lachapelle,
- Abstract要約: 半教師付き模倣学習(SSIL)は、アクションラベル付き軌道からポリシーを学習することと、アクションフリー軌道のデータセットをはるかに大きくする。
いくつかのSSILメソッドは、現在の状態と次の状態からアクションを予測するために逆ダイナミクスモデル(IDM)を学習する。
IDMは、ビデオモデル(VM-IDM)やラベルジェネレータと組み合わせてアクションフリーデータ上での動作クローンを行う場合、ポリシーとして機能する。
- 参考スコア(独自算出の注目度): 8.802022729323635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-supervised imitation learning (SSIL) consists in learning a policy from a small dataset of action-labeled trajectories and a much larger dataset of action-free trajectories. Some SSIL methods learn an inverse dynamics model (IDM) to predict the action from the current state and the next state. An IDM can act as a policy when paired with a video model (VM-IDM) or as a label generator to perform behavior cloning on action-free data (IDM labeling). In this work, we first show that VM-IDM and IDM labeling learn the same policy in a limit case, which we call the IDM-based policy. We then argue that the previously observed advantage of IDM-based policies over behavior cloning is due to the superior sample efficiency of IDM learning, which we attribute to two causes: (i) the ground-truth IDM tends to be contained in a lower complexity hypothesis class relative to the expert policy, and (ii) the ground-truth IDM is often less stochastic than the expert policy. We argue these claims based on insights from statistical learning theory and novel experiments, including a study of IDM-based policies using recent architectures for unified video-action prediction (UVA). Motivated by these insights, we finally propose an improved version of the existing LAPO algorithm for latent action policy learning.
- Abstract(参考訳): 半教師付き模倣学習(SSIL)は、アクションラベル付き軌跡の小さなデータセットと、アクションフリー軌跡のはるかに大きなデータセットからポリシーを学習する。
いくつかのSSILメソッドは、現在の状態と次の状態からアクションを予測するために逆ダイナミクスモデル(IDM)を学習する。
IDMは、ビデオモデル(VM-IDM)やラベルジェネレータと組み合わせてアクションフリーデータ(IDMラベル)の動作クローンを行う場合、ポリシーとして機能する。
本稿では,VM-IDM と IDM のラベル付けが,IDM ベースのポリシーと呼ばれる制限ケースで同じポリシーを学習することを示す。
そして、行動クローニングに対するIMMベースの政策のこれまで観察されていた利点は、IDM学習のサンプル効率が優れているためである、と論じる。
(i) IDMは、専門家の方針に比較して、低い複雑性仮説クラスに含まれる傾向があり、
(II) IDMは専門家の方針よりも確率的でないことが多い。
これらの主張は、統計学習理論や新しい実験から得られた知見に基づいて論じており、近年のアーキテクチャによる統合ビデオアクション予測(UVA)を用いたIMMベースの政策の研究も含んでいる。
これらの知見に触発され、我々は最終的に潜在アクションポリシー学習のための既存のLAPOアルゴリズムの改良版を提案する。
関連論文リスト
- IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.7584322469996896]
IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である
複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。
シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文 参考訳(メタデータ) (2025-02-17T23:22:49Z) - Learning on One Mode: Addressing Multi-modality in Offline Reinforcement Learning [9.38848713730931]
オフライン強化学習は、環境と対話することなく、静的データセットから最適なポリシーを学習しようとする。
既存の方法は、しばしば一助的行動ポリシーを仮定し、この仮定が破られたとき、最適以下のパフォーマンスをもたらす。
本稿では,行動方針の単一かつ有望なモードから学習することに焦点を当てた新しいアプローチである,1モードでの模倣学習(LOM)を提案する。
論文 参考訳(メタデータ) (2024-12-04T11:57:36Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。
我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。
直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-04-05T15:52:34Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。