論文の概要: MM-ACT: Learn from Multimodal Parallel Generation to Act
- arxiv url: http://arxiv.org/abs/2512.00975v1
- Date: Sun, 30 Nov 2025 16:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.524323
- Title: MM-ACT: Learn from Multimodal Parallel Generation to Act
- Title(参考訳): MM-ACT:マルチモーダル並列生成から実行まで
- Authors: Haotian Liang, Xinyi Chen, Bin Wang, Mingkang Chen, Yitian Liu, Yuhao Zhang, Zanxin Chen, Tianshuo Yang, Yilun Chen, Jiangmiao Pang, Dong Liu, Xiaokang Yang, Yao Mu, Wenqi Shao, Ping Luo,
- Abstract要約: MM-ACTは、テキスト、画像、アクションを共有トークン空間に統合し、3つのモード全てで生成する。
コンテキスト共有型マルチモーダル学習は、共有コンテキストから3つのモードすべての生成を監督する。
提案手法は,実フランカの3つのタスクで96.3%,実フランカの3つのタスクで72.0%,RoboTwin2.0の8つの2つのタスクで52.38%を達成している。
- 参考スコア(独自算出の注目度): 80.9182259389658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A generalist robotic policy needs both semantic understanding for task planning and the ability to interact with the environment through predictive capabilities. To tackle this, we present MM-ACT, a unified Vision-Language-Action (VLA) model that integrates text, image, and action in shared token space and performs generation across all three modalities. MM-ACT adopts a re-mask parallel decoding strategy for text and image generation, and employs a one-step parallel decoding strategy for action generation to improve efficiency. We introduce Context-Shared Multimodal Learning, a unified training paradigm that supervises generation in all three modalities from a shared context, enhancing action generation through cross-modal learning. Experiments were conducted on the LIBERO simulation and Franka real-robot setups as well as RoboTwin2.0 to assess in-domain and out-of-domain performances respectively. Our approach achieves a success rate of 96.3% on LIBERO, 72.0% across three tasks of real Franka, and 52.38% across eight bimanual tasks of RoboTwin2.0 with an additional gain of 9.25% from cross-modal learning. We release our codes, models and data at https://github.com/HHYHRHY/MM-ACT.
- Abstract(参考訳): 汎用的なロボット政策は、タスク計画のセマンティックな理解と、予測能力を通じて環境と対話する能力の両方を必要とする。
そこで本稿では,テキスト,画像,アクションを共有トークン空間に統合し,3つのモダリティすべてにまたがって生成する,統合型ビジョン・ランゲージ・アクション(VLA)モデルであるMM-ACTを提案する。
MM-ACTは、テキストと画像生成のための再マスク並列デコード戦略を採用し、アクション生成のために1ステップ並列デコード戦略を用いて効率を向上する。
コンテキスト共有型マルチモーダル学習(Context-Shared Multimodal Learning)は、共有コンテキストから3つのモードすべての生成を監督し、クロスモーダル学習によるアクション生成を促進する統合トレーニングパラダイムである。
LIBEROシミュレーションとFranka real-robotセットアップとRoboTwin2.0でそれぞれドメイン内およびドメイン外の性能を評価する実験を行った。
提案手法は,実フランカの3つのタスクで96.3%,実フランカの3つのタスクで72.0%,RoboTwin2.0の8つのバイマニュアルタスクで52.38%,クロスモーダル学習で9.25%,LIBEROの96.3%の成功率を達成した。
コード、モデル、データはhttps://github.com/HHYHRHY/MM-ACT.comで公開しています。
関連論文リスト
- Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data [55.65426108082807]
Uni-MoE-2.0-Omniをスクラッチから3つのコアコントリビューションで構築しています。
雑用的な理解や、画像、テキスト、音声を生成することができる。
論文 参考訳(メタデータ) (2025-11-16T14:10:55Z) - Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
デモからブートストラップされたスキルライブラリは、プラナー誘導タスクを通じて進化し、適応戦略を実現する。
我々は、その最先端のMARLベースラインに対して、対称シナリオと非対称シナリオの両方で強力な性能を示す。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - Action Recognition Using Temporal Shift Module and Ensemble Learning [0.0]
本稿では,aclICPR 2024におけるマルチモーダル視覚パターン認識ワークショップの一環として,マルチモーダル行動認識チャレンジ(Multi-Modal Action Recognition Challenge)のファーストランクソリューションを提案する。
このコンペティションは、マルチモーダルソースから収集された20のアクションクラスの多様なデータセットを使用して、人間の行動を認識することを目的としている。
提案手法は,20クラスにまたがる人的行動の認識において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-01-29T10:36:55Z) - Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。
ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。
ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文 参考訳(メタデータ) (2025-01-23T07:49:24Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。