論文の概要: SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2603.05117v2
- Date: Sun, 08 Mar 2026 10:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.937109
- Title: SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation
- Title(参考訳): SeedPolicy: ロボット操作のための自己進化拡散政策による水平スケーリング
- Authors: Youqiang Gui, Yuxuan Zhou, Shen Cheng, Xinyang Yuan, Haoqiang Fan, Peng Cheng, Shuaicheng Liu,
- Abstract要約: イミテーションラーニング(IL)は、ロボットが専門家によるデモンストレーションから操作スキルを習得することを可能にする。
本稿では,時間進化型潜伏状態を保持する時間モジュールSEGAを提案する。
SEGAをDPに統合することで、時間的モデリングボトルネックを解決する自己進化拡散ポリシー(SeedPolicy)が得られる。
- 参考スコア(独自算出の注目度): 50.002839579188624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning (IL) enables robots to acquire manipulation skills from expert demonstrations. Diffusion Policy (DP) models multi-modal expert behaviors but suffers performance degradation as observation horizons increase, limiting long-horizon manipulation. We propose Self-Evolving Gated Attention (SEGA), a temporal module that maintains a time-evolving latent state via gated attention, enabling efficient recurrent updates that compress long-horizon observations into a fixed-size representation while filtering irrelevant temporal information. Integrating SEGA into DP yields Self-Evolving Diffusion Policy (SeedPolicy), which resolves the temporal modeling bottleneck and enables scalable horizon extension with moderate overhead. On the RoboTwin 2.0 benchmark with 50 manipulation tasks, SeedPolicy outperforms DP and other IL baselines. Averaged across both CNN and Transformer backbones, SeedPolicy achieves 36.8% relative improvement in clean settings and 169% relative improvement in randomized challenging settings over the DP. Compared to vision-language-action models such as RDT with 1.2B parameters, SeedPolicy achieves competitive performance with one to two orders of magnitude fewer parameters, demonstrating strong efficiency and scalability. These results establish SeedPolicy as a state-of-the-art imitation learning method for long-horizon robotic manipulation. Code is available at: https://github.com/Youqiang-Gui/SeedPolicy.
- Abstract(参考訳): イミテーションラーニング(IL)は、ロボットが専門家によるデモンストレーションから操作スキルを習得することを可能にする。
拡散政策(DP)は多モードの専門家の振る舞いをモデル化するが、観測地平線が増加するにつれて性能が低下し、長期の操作が制限される。
本研究では,時間進化状態を維持するための時間的モジュールであるSEGAを提案し,時間的関係のない時間的情報をフィルタリングしながら,長期観測を一定サイズの表現に圧縮する効率的なリカレント更新を実現する。
SEGAをDPに統合すると、自己進化拡散ポリシー(SeedPolicy)が得られ、時間的モデリングのボトルネックを解消し、適度なオーバーヘッドでスケーラブルな地平線拡張を可能にする。
50の操作タスクを備えたRoboTwin 2.0ベンチマークでは、SeedPolicyがDPやその他のILベースラインを上回っている。
CNNとTransformerの両方のバックボーンで平均されるSeedPolicyは、クリーンな設定における36.8%の相対的な改善と、DP上でランダム化された挑戦的な設定における169%の相対的な改善を実現している。
1.2BパラメータのRTTのような視覚言語アクションモデルと比較して、SeedPolicyは1~2桁のパラメータで競合性能を達成し、高い効率とスケーラビリティを示している。
これらの結果は,長期ロボット操作のための最先端の模倣学習手法として,SeedPolicyを確立した。
コードは、https://github.com/Youqiang-Gui/SeedPolicy.comで入手できる。
関連論文リスト
- RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks [28.827331437876452]
データ収集、ポリシー学習、タスク実行を単一のVLM駆動コントローラで統合するエージェントロボットフレームワークであるRoboClawを提案する。
ポリシーレベルでは、RoboClaw氏はEntangled Action Pairs(EAP)を紹介している。
デプロイ中、同じエージェントが高レベルの推論を行い、学習されたポリシープリミティブを動的にオーケストレーションして長期のタスクを遂行する。
論文 参考訳(メタデータ) (2026-03-12T05:22:59Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - D2PPO: Diffusion Policy Policy Optimization with Dispersive Loss [13.132582315951193]
高次元空間における多モーダル動作分布のモデル化によるロボット操作における拡散制御
拡散ポリシーは、意味的に類似した観察が区別できない特徴にマッピングされるときに、表現の崩壊に悩まされる。
D2PPOは分散損失正規化を導入し、各バッチ内のすべての隠された表現を負のペアとして扱うことで表現の崩壊と戦う。
論文 参考訳(メタデータ) (2025-08-04T17:33:41Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - GPU-Accelerated Policy Optimization via Batch Automatic Differentiation
of Gaussian Processes for Real-World Control [8.720903734757627]
我々は, 高速な予測サンプリング手法を利用して, 前方通過毎に軌道のバッチ処理を行うことにより, 政策最適化手法を開発した。
重機を用いた基準追従制御実験の訓練方針における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-28T09:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。