論文の概要: Masked Generative Policy for Robotic Control
- arxiv url: http://arxiv.org/abs/2512.09101v1
- Date: Tue, 09 Dec 2025 20:37:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.31274
- Title: Masked Generative Policy for Robotic Control
- Title(参考訳): ロボット制御のためのマスケ生成ポリシー
- Authors: Lipeng Zhuang, Shiyu Fan, Florent P. Audonnet, Yingdong Ru, Gerardo Aragon Camarasa, Paul Henderson,
- Abstract要約: Masked Generative Policy (MGP)は、視覚的模倣学習のための新しいフレームワークである。
MGPは、最先端の拡散や自己回帰政策と比較して、高速な推論と優れた成功率を達成する。
- 参考スコア(独自算出の注目度): 8.792596063374994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Masked Generative Policy (MGP), a novel framework for visuomotor imitation learning. We represent actions as discrete tokens, and train a conditional masked transformer that generates tokens in parallel and then rapidly refines only low-confidence tokens. We further propose two new sampling paradigms: MGP-Short, which performs parallel masked generation with score-based refinement for Markovian tasks, and MGP-Long, which predicts full trajectories in a single pass and dynamically refines low-confidence action tokens based on new observations. With globally coherent prediction and robust adaptive execution capabilities, MGP-Long enables reliable control on complex and non-Markovian tasks that prior methods struggle with. Extensive evaluations on 150 robotic manipulation tasks spanning the Meta-World and LIBERO benchmarks show that MGP achieves both rapid inference and superior success rates compared to state-of-the-art diffusion and autoregressive policies. Specifically, MGP increases the average success rate by 9% across 150 tasks while cutting per-sequence inference time by up to 35x. It further improves the average success rate by 60% in dynamic and missing-observation environments, and solves two non-Markovian scenarios where other state-of-the-art methods fail.
- Abstract(参考訳): 本稿では,視覚的模倣学習のための新しいフレームワークであるMasked Generative Policy(MGP)を紹介する。
アクションを離散トークンとして表現し、並列にトークンを生成し、低信頼トークンのみを急速に洗練する条件付きマスク変換器を訓練する。
さらに,MGP-Short と MGP-Long の2つの新しいサンプリングパラダイムを提案する。
グローバルコヒーレントな予測とロバストな適応実行機能により、MGP-Longは、先行メソッドが苦労する複雑で非マルコフ的なタスクの信頼性の高い制御を可能にする。
Meta-World と LIBERO ベンチマークにまたがる150のロボット操作タスクに対する広範囲な評価は、MGP が最先端の拡散と自己回帰政策と比較して、高速な推論と優れた成功率の両方を達成することを示している。
具体的には、MGPは150タスクの平均成功率を9%向上させ、シーケンス毎の推論時間を最大35倍に削減する。
さらに、動的および観測不能な環境での平均成功率を60%向上させ、他の最先端メソッドが失敗する2つの非マルコフ的シナリオを解決する。
関連論文リスト
- Beyond Static Cutoffs: One-Shot Dynamic Thresholding for Diffusion Language Models [3.4202631641965238]
One-Shot Dynamic Thresholding (OSDT)は、単一シーケンス上のしきい値を校正し、無視可能なオーバーヘッドを持つその後の入力に適用する。
この結果から,より汎用的なアルゴリズムやシステム革新の拡散復号化のために,タスクレベルの信頼署名を活用できる幅広い機会が示唆された。
論文 参考訳(メタデータ) (2025-11-03T21:30:03Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Traj-MAE: Masked Autoencoders for Trajectory Prediction [69.7885837428344]
軌道予測は、危険を予測して信頼性の高い自動運転システムを構築する上で重要な課題である。
本稿では,運転環境におけるエージェントの複雑な動作をよりよく表現する,軌道予測のための効率的なマスク付きオートエンコーダを提案する。
複数エージェント設定と単一エージェント設定の両方の実験結果から,Traj-MAEが最先端手法と競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2023-03-12T16:23:27Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - On Fast Adversarial Robustness Adaptation in Model-Agnostic
Meta-Learning [100.14809391594109]
モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。
メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。
本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:03:04Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。