Fugu-MT 論文翻訳(概要): ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

論文の概要: ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

arxiv url: http://arxiv.org/abs/2602.11236v1
Date: Wed, 11 Feb 2026 16:47:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-13 21:07:25.475439
Title: ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning
Title（参考訳）: ABot-M0:アクションマニフォールド学習を用いたロボットマニピュレーションのためのVLA基礎モデル
Authors: Yandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu,
Abstract要約: ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。 ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
参考スコア（独自算出の注目度）: 31.000965640377128
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building general-purpose embodied agents across diverse hardware remains a central challenge in robotics, often framed as the ''one-brain, many-forms'' paradigm. Progress is hindered by fragmented data, inconsistent representations, and misaligned training objectives. We present ABot-M0, a framework that builds a systematic data curation pipeline while jointly optimizing model architecture and training strategies, enabling end-to-end transformation of heterogeneous raw data into unified, efficient representations. From six public datasets, we clean, standardize, and balance samples to construct UniACT-dataset, a large-scale dataset with over 6 million trajectories and 9,500 hours of data, covering diverse robot morphologies and task scenarios. Unified pre-training improves knowledge transfer and generalization across platforms and tasks, supporting general-purpose embodied intelligence. To improve action prediction efficiency and stability, we propose the Action Manifold Hypothesis: effective robot actions lie not in the full high-dimensional space but on a low-dimensional, smooth manifold governed by physical laws and task constraints. Based on this, we introduce Action Manifold Learning (AML), which uses a DiT backbone to predict clean, continuous action sequences directly. This shifts learning from denoising to projection onto feasible manifolds, improving decoding speed and policy stability. ABot-M0 supports modular perception via a dual-stream mechanism that integrates VLM semantics with geometric priors and multi-view inputs from plug-and-play 3D modules such as VGGT and Qwen-Image-Edit, enhancing spatial understanding without modifying the backbone and mitigating standard VLM limitations in 3D reasoning. Experiments show components operate independently with additive benefits. We will release all code and pipelines for reproducibility and future research.
Abstract（参考訳）: 多様なハードウェアにまたがる汎用的なエンボディエージェントの構築は、ロボット工学において依然として中心的な課題であり、しばしば'1脳多形'パラダイムとしてフレーム化されている。進捗は断片化されたデータ、一貫性のない表現、トレーニング目標の不整合によって妨げられます。モデルアーキテクチャとトレーニング戦略を共同で最適化しながら,体系的なデータキュレーションパイプラインを構築するフレームワークであるABot-M0を提案する。 6つのパブリックデータセットからサンプルをクリーン化し、標準化し、バランスをとることで、UniACTデータセットを構築します。統一事前学習は、プラットフォームやタスク間の知識伝達と一般化を改善し、汎用的なインテリジェンスをサポートする。動作予測の効率と安定性を改善するために,実効ロボットの動作は全高次元空間ではなく,物理法則やタスク制約によって支配される低次元の滑らかな多様体上に存在する,というアクション・マニフォールド仮説を提案する。これに基づいて、クリーンで連続的なアクションシーケンスを直接予測するためにDiTバックボーンを使用するAML(Action Manifold Learning)を導入する。これにより、学習はデノイングから射影から実現可能な多様体へとシフトし、デコード速度とポリシー安定性が向上する。 ABot-M0は、VLMセマンティクスを幾何学的先行要素と統合し、VGGTやQwen-Image-Editのようなプラグアンドプレイの3Dモジュールからのマルチビュー入力を統合し、バックボーンを変更することなく空間的理解を強化し、3D推論において標準のVLM制限を緩和するデュアルストリーム機構によってモジュラー認識をサポートする。実験では、コンポーネントは追加的な利点で独立して動作している。再現性と将来の研究のために、すべてのコードとパイプラインをリリースします。

関連論文リスト

Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文参考訳（メタデータ） (2026-01-13T23:36:30Z)
mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文参考訳（メタデータ） (2025-12-17T18:47:31Z)
Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。 3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。 Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-12-14T20:02:43Z)
URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。 URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-11-02T13:45:51Z)
StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文参考訳（メタデータ） (2025-10-06T17:37:24Z)
EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer [35.27100635173712]
視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。 DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。 AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
論文参考訳（メタデータ） (2025-09-26T14:34:44Z)
MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling [3.139165705827712]
セマンティックシーン補完(SSC)のためのメタラーニングに基づく新しいフレームワークであるMetaSSCを紹介する。我々のアプローチは、不完全領域のセマンティックスと幾何学を探求することを目的とした、ボクセルに基づくセマンティックセマンティックセマンティクス(SS)事前訓練タスクから始まる。シミュレーションされた協調認識データセットを用いて、集約されたセンサデータを用いて1台の車両の知覚訓練を監督する。このメタ知識は、二重フェーズのトレーニング戦略を通じてターゲットドメインに適応し、効率的なデプロイメントを可能にする。
論文参考訳（メタデータ） (2024-11-06T05:11:25Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。 i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文参考訳（メタデータ） (2020-10-11T01:40:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。