論文の概要: Offline Imitation Learning upon Arbitrary Demonstrations by Pre-Training Dynamics Representations
- arxiv url: http://arxiv.org/abs/2508.14383v1
- Date: Wed, 20 Aug 2025 03:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.324508
- Title: Offline Imitation Learning upon Arbitrary Demonstrations by Pre-Training Dynamics Representations
- Title(参考訳): 事前学習ダイナミクス表現による任意証明に基づくオフライン模倣学習
- Authors: Haitong Ma, Bo Dai, Zhaolin Ren, Yebin Wang, Na Li,
- Abstract要約: 遷移力学の因子化から導かれる動的表現を学習する事前学習段階を導入する。
提案アルゴリズムは,専門家の方針を1つの軌道で模倣できることを示す。
- 参考スコア(独自算出の注目度): 16.363455701286696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Limited data has become a major bottleneck in scaling up offline imitation learning (IL). In this paper, we propose enhancing IL performance under limited expert data by introducing a pre-training stage that learns dynamics representations, derived from factorizations of the transition dynamics. We first theoretically justify that the optimal decision variable of offline IL lies in the representation space, significantly reducing the parameters to learn in the downstream IL. Moreover, the dynamics representations can be learned from arbitrary data collected with the same dynamics, allowing the reuse of massive non-expert data and mitigating the limited data issues. We present a tractable loss function inspired by noise contrastive estimation to learn the dynamics representations at the pre-training stage. Experiments on MuJoCo demonstrate that our proposed algorithm can mimic expert policies with as few as a single trajectory. Experiments on real quadrupeds show that we can leverage pre-trained dynamics representations from simulator data to learn to walk from a few real-world demonstrations.
- Abstract(参考訳): オフライン模倣学習(IL)のスケールアップにおいて、限られたデータが大きなボトルネックになっている。
本稿では,遷移力学の因子化から得られた動的表現を学習する事前学習段階を導入することで,限られた専門家データの下でのIL性能の向上を提案する。
まず、オフラインILの最適決定変数が表現空間にあることを理論的に正当化し、下流ILで学習するパラメータを著しく削減する。
さらに、同じダイナミックスで収集された任意のデータから動的表現を学習することで、大量の非専門的なデータの再利用と、限られたデータ問題の緩和が可能になる。
本稿では,ノイズコントラスト推定にインスパイアされたトラクタブルな損失関数を提案し,事前学習段階における動的表現の学習を行う。
MuJoCoの実験では,提案アルゴリズムは1つの軌道しか持たない専門家ポリシーを模倣できることを示した。
実四重項を用いた実験により、シミュレータデータから事前学習された動的表現を利用して、実世界のデモから歩み方を学ぶことができることがわかった。
関連論文リスト
- Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control [18.737628473949048]
模倣学習は、複雑なビジュモータポリシーを訓練するための強力なツールであることが証明されている。
現在の手法では、高次元の視覚的観察を扱うために数百から数千の専門家によるデモンストレーションが必要となることが多い。
視覚表現を学習するための新しいドメイン内自己教師型DynaMoを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:59:43Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Leveraging Neural Koopman Operators to Learn Continuous Representations
of Dynamical Systems from Scarce Data [0.0]
我々は、本質的に連続的な方法でダイナミクスを表現する新しいディープ・クープマン・フレームワークを提案する。
このフレームワークは、限られたトレーニングデータのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-03-13T10:16:19Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - DiffSRL: Learning Dynamic-aware State Representation for Deformable
Object Control with Differentiable Simulator [26.280021036447213]
ダイナミックス関連情報をキャプチャできる潜在空間は、モデルフリー強化学習の加速のような分野に広く応用されている。
微分可能シミュレーションを利用した動的状態表現学習パイプラインDiffSRLを提案する。
本モデルでは,長期的ダイナミクスと報奨予測の両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-24T04:53:58Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。