論文の概要: MolmoAct2: Action Reasoning Models for Real-world Deployment
- arxiv url: http://arxiv.org/abs/2605.02881v2
- Date: Fri, 08 May 2026 04:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.729325
- Title: MolmoAct2: Action Reasoning Models for Real-world Deployment
- Title(参考訳): MolmoAct2: 実世界のデプロイのためのアクション推論モデル
- Authors: Haoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai, Shirui Chen, Yi Ru Wang, Shanli Xing, Jaemin Cho, Jae Sung Park, Ainaz Eftekhar, Peter Sushko, Karen Farley, Angad Wadhwa, Cole Harrison, Winson Han, Ying-Chun Lee, Eli VanderBilt, Rose Hendrix, Suveen Ellawela, Lucas Ngoo, Joyce Chai, Zhongzheng Ren, Ali Farhadi, Dieter Fox, Ranjay Krishna,
- Abstract要約: MolmoAct2は、実用的なデプロイメントのために構築された、完全にオープンなアクション推論モデルである。
空間的および具体的推論に特化した VLM バックボーンである MolmoER を紹介する。
低コストプラットフォームにまたがる3つの新しいデータセットをリリースする。
- 参考スコア(独自算出の注目度): 67.6315757474802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models aim to provide a single generalist controller for robots, but today's systems fall short on the criteria that matter for real-world deployment. Frontier models are closed, open-weight alternatives are tied to expensive hardware, reasoning-augmented policies pay prohibitive latency for their grounding, and fine-tuned success rates remain below the threshold for dependable use. We present MolmoAct2, a fully open action reasoning model built for practical deployment, advancing its predecessor along five axes. We introduce MolmoER, a VLM backbone specialized for spatial and embodied reasoning, trained on a 3.3M-sample corpus with a specialize-then-rehearse recipe. We release three new datasets spanning low-to-medium cost platforms, including MolmoAct2-BimanualYAM, 720 hours of teleoperated bimanual trajectories that constitute the largest open bimanual dataset to date, together with quality-filtered Franka (DROID) and SO100/101 subsets. We provide OpenFAST, an open-weight, open-data action tokenizer trained on millions of trajectories across five embodiments. We redesign the architecture to graft a flow-matching continuous-action expert onto a discrete-token VLM via per-layer KV-cache conditioning. Finally, we propose MolmoThink, an adaptive-depth reasoning variant that re-predicts depth tokens only for scene regions that change between timesteps, retaining geometric grounding at a fraction of prior latency. In the most extensive empirical study of any open VLA to date, spanning 7 simulation and real-world benchmarks, MolmoAct2 outperforms strong baselines including Pi-05, while MolmoER surpasses GPT-5 and Gemini Robotics ER-1.5 across 13 embodied-reasoning benchmarks. We release model weights, training code, and complete training data. Project page: https://allenai.org/blog/molmoact2
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボットのための単一の汎用コントローラを提供することを目標としているが、今日のシステムは、現実のデプロイメントにおいて重要な基準に当てはまらない。
フロンティアモデルはクローズドで、オープンウェイトな代替手段は高価なハードウェアと結びついており、推論の強化されたポリシーは、その基盤として禁止的なレイテンシを支払う。
実運用のために構築された完全にオープンなアクション推論モデルである MolmoAct2 について述べる。
空間的および具体的推論を専門とするVLMバックボーンであるM MolmoER について紹介する。
われわれは,M MolmoAct2-BimanualYAMを含む低コストプラットフォームにまたがる3つの新しいデータセットをリリースした。
オープンウェイトでオープンなアクショントークンであるOpenFASTは,5つの実施形態にわたる数百万のトラジェクトリでトレーニングされた,オープンウェイトなアクショントークンである。
我々は,フローマッチング型連続動作エキスパートを層ごとのKV-cache条件で離散的なVLMに移植するアーキテクチャを再設計する。
最後に,時間経過の異なるシーンでのみ深度トークンを予測し,幾何的なグラウンド化を先行レイテンシのごく一部で保持する適応深度推論変種であるMomoThinkを提案する。
現在7つのシミュレーションと実世界のベンチマークにまたがる、あらゆるオープンVLAに関する最も広範な実証研究において、M MolmoAct2はPi-05を含む強力なベースラインを上回り、M MolmoERは13のエボデード推論ベンチマークでGPT-5とGemini Robotics ER-1.5を上回っている。
モデルウェイト、トレーニングコード、完全なトレーニングデータをリリースします。
プロジェクトページ:https://allenai.org/blog/molmoact2
関連論文リスト
- MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation [56.976138997544005]
実世界へのゼロショット転送は可能であるが,静的操作と移動操作の両方に有効であることを示す。
MolmoBot-Dataは180万のエキスパートトラジェクトリのデータセットで、オブジェクトの操作やピック・アンド・プレイスタスクのためのものです。
本研究は,手続き型環境生成と多種多様な調音資産が組み合わさって,ロバストな操作ポリシーを創出できることを実証する。
論文 参考訳(メタデータ) (2026-03-17T17:59:03Z) - RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization [31.40401674436269]
RDT2は、7BパラメータVLM上に構築されたロボット基盤モデルであり、オープン語彙タスクのための新しい実施形態のゼロショット展開を可能にする。
私たちは、さまざまな家族で1万時間以上のデモを行い、拡張されたエンボディメントに依存しないユニバーサルマニピュレーションインタフェース(UMI)を使って、オープンソースのロボットデータセットの1つを収集しました。
提案手法では,Residual Vector Quantization (RVQ), flow-matching, およびリアルタイム推論のための蒸留により, 個別の言語知識を連続的な制御と整合させる新しい3段階学習法を用いる。
論文 参考訳(メタデータ) (2026-02-03T09:38:23Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - 2 OLMo 2 Furious [154.15728448754854]
我々は、私たちの完全にオープンな言語の次世代モデルであるOLMo 2を紹介します。
OLMo 2は、7B、13B、32Bスケールの高密度な自己回帰言語モデルを含む。
修正されたモデルアーキテクチャとトレーニングレシピについて説明する。
論文 参考訳(メタデータ) (2024-12-31T21:55:10Z) - 1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data [0.0]
本稿では,9日間で言語モデル"1.5-Pints"を事前学習するための計算効率のよい手法を提案する。
MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて、1.5-PintsはAppleのOpenELMとMicrosoftのPhiを上回っている。
これは、自動化された人間によるレビューと手動によるレビューを組み合わせて、57億トークンのトレーニング済みデータセットを慎重にキュレートすることで達成される。
論文 参考訳(メタデータ) (2024-08-07T02:14:52Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。