論文の概要: Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
- arxiv url: http://arxiv.org/abs/2511.16175v1
- Date: Thu, 20 Nov 2025 09:30:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.551988
- Title: Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
- Title(参考訳): Mantis: 視界を歪ませた多角的視線制御モデル
- Authors: Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng,
- Abstract要約: 本稿では,DVF(Disentangled Visual Foresight)を特徴とする新しいフレームワークであるMantisを紹介する。
Mantisは、メタクエリと拡散トランスフォーマー(DiT)ヘッドを組み合わせて、バックボーンから視覚的予測を分離する。
マンティスは微調整後のLIBEROベンチマークで96.7%の成功率を達成した。
- 参考スコア(独自算出の注目度): 49.882469110319086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision-Language-Action (VLA) models demonstrate that visual signals can effectively complement sparse action supervisions. However, letting VLA directly predict high-dimensional visual states can distribute model capacity and incur prohibitive training cost, while compressing visual states into more compact supervisory signals inevitably incurs information bottlenecks. Moreover, existing methods often suffer from poor comprehension and reasoning capabilities due to the neglect of language supervision. This paper introduces Mantis, a novel framework featuring a Disentangled Visual Foresight (DVF) to tackle these issues. Specifically, Mantis decouples visual foresight prediction from the backbone with the combination of meta queries and a diffusion Transformer (DiT) head. With the current visual state provided to the DiT via a residual connection, a simple next-state prediction objective enables the meta queries to automatically capture the latent actions that delineate the visual trajectory, and hence boost the learning of explicit actions. The disentanglement reduces the burden of the VLA backbone, enabling it to maintain comprehension and reasoning capabilities through language supervision. Empirically, pretrained on human manipulation videos, robot demonstrations, and image-text pairs, Mantis achieves a 96.7% success rate on LIBERO benchmark after fine-tuning, surpassing powerful baselines while exhibiting high convergence speed. Real-world evaluations show that Mantis outperforms $π_{0.5}$, a leading open-source VLA model, particularly in instruction-following capability, generalization to unseen instructions, and reasoning ability. Code and weights are released to support the open-source community.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルの最近の進歩は、視覚信号がスパースアクションの監督を効果的に補完できることを示している。
しかし、VLAが高次元の視覚状態を直接予測させることで、視覚状態をよりコンパクトな監視信号に圧縮しながら、モデル容量を分散し、禁止的な訓練コストを発生させることができる。
さらに,既存の手法は言語指導を無視したため,理解力の低下や推論能力の低下に悩まされることが多い。
本稿では,これらの問題に対処するためのDVF(Disentangled Visual Foresight)を特徴とする新しいフレームワークであるMantisを紹介する。
具体的には、Mantisはメタクエリと拡散トランスフォーマー(DiT)ヘッドを組み合わせて、バックボーンから視覚的フォアサイト予測を分離する。
残差接続を介してDiTに提供される現在の視覚状態により、単純な次世代予測目標は、メタクエリが視覚的軌跡を規定する潜時動作を自動的にキャプチャし、明示的な行動の学習を促進することができる。
この絡み合いはVLAのバックボーンの負担を軽減し、言語監督による理解と推論能力の維持を可能にする。
マンティスは人間の操作ビデオ、ロボットのデモ、画像とテキストのペアを事前訓練し、微調整後のLIBEROベンチマークで96.7%の成功率を記録し、高い収束速度を示しながら強力なベースラインを超えた。
実世界の評価では、マンティスは、特に命令追従能力、目に見えない命令への一般化、推論能力において、主要なオープンソースVLAモデルである$π_{0.5}$よりも優れていた。
コードと重みはオープンソースコミュニティをサポートするためにリリースされている。
関連論文リスト
- Rethinking Visual Intelligence: Insights from Video Pretraining [75.32388528274224]
大規模言語モデル(LLM)は、大規模事前学習によってシステムが新しい問題に迅速に適応できることを実証している。
本稿では,映像拡散モデル(VDM)をギャップを埋めるための有望な方向として検討する。
論文 参考訳(メタデータ) (2025-10-28T14:12:11Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。