論文の概要: Self-evolved Imitation Learning in Simulated World
- arxiv url: http://arxiv.org/abs/2509.19460v1
- Date: Tue, 23 Sep 2025 18:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.562982
- Title: Self-evolved Imitation Learning in Simulated World
- Title(参考訳): 模擬世界における自己進化型模倣学習
- Authors: Yifan Ye, Jun Cen, Jing Chen, Zhihe Lu,
- Abstract要約: 自己進化的模倣学習(Self-Evolved Imitation Learning、SEIL)は、シミュレーターインタラクションを通じて数ショットモデルを改善するフレームワークである。
SEILは、数ショットの模倣学習シナリオにおいて、最先端のパフォーマンスを新たに達成する。
- 参考スコア(独自算出の注目度): 16.459715139048367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning has been a trend recently, yet training a generalist agent across multiple tasks still requires large-scale expert demonstrations, which are costly and labor-intensive to collect. To address the challenge of limited supervision, we propose Self-Evolved Imitation Learning (SEIL), a framework that progressively improves a few-shot model through simulator interactions. The model first attempts tasksin the simulator, from which successful trajectories are collected as new demonstrations for iterative refinement. To enhance the diversity of these demonstrations, SEIL employs dual-level augmentation: (i) Model-level, using an Exponential Moving Average (EMA) model to collaborate with the primary model, and (ii) Environment-level, introducing slight variations in initial object positions. We further introduce a lightweight selector that filters complementary and informative trajectories from the generated pool to ensure demonstration quality. These curated samples enable the model to achieve competitive performance with far fewer training examples. Extensive experiments on the LIBERO benchmark show that SEIL achieves a new state-of-the-art performance in few-shot imitation learning scenarios. Code is available at https://github.com/Jasper-aaa/SEIL.git.
- Abstract(参考訳): 模倣学習は近年流行しているが、複数のタスクにまたがってジェネラリストエージェントを訓練するには、大規模な専門家によるデモンストレーションが必要である。
限定的な監督の課題に対処するため,シミュレータの相互作用を通じて,段階的に数ショットモデルを改善するフレームワークであるSelf-Evolved Imitation Learning (SEIL)を提案する。
モデルはまずシミュレーターのタスクを試み、そこで成功した軌道は反復的な洗練のための新しいデモンストレーションとして収集される。
これらのデモの多様性を高めるために、SEILは二重レベルの拡張を採用しています。
一 モデルレベルでは、指数移動平均(EMA)モデルを用いて、一次モデルと協調すること。
(ii)初期物の位置にわずかな変化をもたらす環境レベル。
さらに、実演品質を確保するために、生成されたプールから補完的かつ情報的軌跡をフィルタリングする軽量セレクタを導入する。
これらのキュレートされたサンプルにより、モデルをはるかに少ないトレーニング例で競争性能を達成することができる。
LIBEROベンチマークの大規模な実験は、SEILが数ショットの模倣学習シナリオで新しい最先端のパフォーマンスを達成することを示している。
コードはhttps://github.com/Jasper-aaa/SEIL.gitで入手できる。
関連論文リスト
- GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Leveraging World Model Disentanglement in Value-Based Multi-Agent
Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。