論文の概要: Mask World Model: Predicting What Matters for Robust Robot Policy Learning
- arxiv url: http://arxiv.org/abs/2604.19683v1
- Date: Tue, 21 Apr 2026 17:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.891782
- Title: Mask World Model: Predicting What Matters for Robust Robot Policy Learning
- Title(参考訳): Mask World Model:ロバストなロボットポリシー学習に何が必要かを予測する
- Authors: Yunfan Lou, Xiaowei Chi, Xiaojie Zhang, Zezhong Qian, Chengxuan Li, Rongyu Zhang, Yaoxu Lyu, Guoyu Song, Chuyao Fu, Haoxuan Xu, Pengwei Wang, Shanghang Zhang,
- Abstract要約: Mask World Model (MWM) は、大規模ビデオ生成事前学習モデルの一般化である。
MWMは,テクスチャ情報損失に対する優れた一般化能力と堅牢なレジリエンスを示す。
- 参考スコア(独自算出の注目度): 31.96162737409163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models derived from large-scale video generative pre-training have emerged as a promising paradigm for generalist robot policy learning. However, standard approaches often focus on high-fidelity RGB video prediction, this can result in overfitting to irrelevant factors, such as dynamic backgrounds and illumination changes. These distractions reduce the model's ability to generalize, ultimately leading to unreliable and fragile control policies. To address this, we introduce the Mask World Model (MWM), which leverages video diffusion architectures to predict the evolution of semantic masks instead of pixels. This shift imposes a geometric information bottleneck, forcing the model to capture essential physical dynamics and contact relations while filtering out visual noise. We seamlessly integrate this mask dynamics backbone with a diffusion-based policy head to enable robust end-to-end control. Extensive evaluations demonstrate the superiority of MWM on the LIBERO and RLBench simulation benchmarks, significantly outperforming the state-of-the-art RGB-based world models. Furthermore, real-world experiments and robustness evaluation (via random token pruning) reveal that MWM exhibits superior generalization capabilities and robust resilience to texture information loss.
- Abstract(参考訳): 大規模ビデオ生成事前学習から派生した世界モデルは、ジェネラリストロボット政策学習の有望なパラダイムとして現れている。
しかし、標準的なアプローチは高忠実度RGBビデオ予測に重点を置いていることが多いため、動的背景や照明変更など、無関係な要因に過度に適合する可能性がある。
これらの混乱により、モデルが一般化する能力が低下し、最終的に信頼性の低い脆弱な制御ポリシーがもたらされる。
これを解決するために,ビデオ拡散アーキテクチャを活用し,画素の代わりにセマンティックマスクの進化を予測するMask World Model (MWM)を導入する。
このシフトは、幾何学的な情報のボトルネックを課し、視覚ノイズを除去しながら、本質的な物理力学と接触関係を捉えることを強制する。
我々はこのマスクダイナミクスを拡散ベースのポリシーヘッドとシームレスに統合し、堅牢なエンドツーエンド制御を可能にする。
LIBERO と RLBench のシミュレーションベンチマークではMWM が優れており、最先端の RGB ベースの世界モデルよりも優れていた。
さらに、実世界の実験と(ランダムトークンプルーニングによる)ロバストネス評価により、MWMはより優れた一般化能力とテクスチャ情報損失に対する堅牢なレジリエンスを示すことが明らかになった。
関連論文リスト
- DyMoDreamer: World Modeling with Dynamic Modulation [52.27044216359359]
深層強化学習(DRL)における重要なボトルネックはサンプル非効率である。
動的変調機構を組み込んだ新しいアルゴリズムDyMoDreamerを導入し,動的特徴抽出の改善と時間情報の充実を図る。
実験によると、DyMoDreamer は Atari 100$k ベンチマークに新しい最先端のスコアをセットし、平均156.6$% の人間正規化スコアを設定できる。
論文 参考訳(メタデータ) (2025-09-29T13:54:42Z) - GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。
中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。
シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文 参考訳(メタデータ) (2025-08-25T02:01:09Z) - MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction [8.503246256880612]
ビデオマスク再構成を具現化した一般化可能な世界モデルであるMaskGWMを提案する。
本モデルには,長期水平予測に着目したMaskGWM-longと,マルチビュー生成専用のMaskGWM-mviewの2種類が含まれている。
論文 参考訳(メタデータ) (2025-02-17T10:53:56Z) - Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。
ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。
本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文 参考訳(メタデータ) (2024-05-10T06:28:42Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。