Fugu-MT 論文翻訳(概要): ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

論文の概要: ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

arxiv url: http://arxiv.org/abs/2603.03198v1
Date: Tue, 03 Mar 2026 17:53:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.907604
Title: ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments
Title（参考訳）: ACE-Brain-0:Universal Embodimentsの共有空間としての空間知能
Authors: Ziyang Gong, Zehang Luo, Anke Tang, Zhe Liu, Shi Fu, Zhi Hou, Ganlin Yang, Weiyun Wang, Xiaofeng Wang, Jianbo Liu, Gen Luo, Haolan Kang, Shuang Luo, Yue Zhou, Yong Luo, Li Shen, Xiaosong Jia, Yao Mu, Xue Yang, Chunxiao Liu, Junchi Yan, Hengshuang Zhao, Dacheng Tao, Xiaogang Wang,
Abstract要約: 本稿では,空間推論,自律運転,体操を統一する一般基礎脳であるACE-Brain-0を紹介する。我々の重要な洞察は、空間的知性は様々な物理的具体化の普遍的な足場として機能するということである。そこで我々は,まず共有空間基盤を確立し,次にドメイン特化専門家を育成し,最後にデータフリーモデルマージにより調和させるScaffold-specize-Reconcile(SSR)パラダイムを提案する。
参考スコア（独自算出の注目度）: 134.95780765985515
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Universal embodied intelligence demands robust generalization across heterogeneous embodiments, such as autonomous driving, robotics, and unmanned aerial vehicles (UAVs). However, existing embodied brain in training a unified model over diverse embodiments frequently triggers long-tail data, gradient interference, and catastrophic forgetting, making it notoriously difficult to balance universal generalization with domain-specific proficiency. In this report, we introduce ACE-Brain-0, a generalist foundation brain that unifies spatial reasoning, autonomous driving, and embodied manipulation within a single multimodal large language model~(MLLM). Our key insight is that spatial intelligence serves as a universal scaffold across diverse physical embodiments: although vehicles, robots, and UAVs differ drastically in morphology, they share a common need for modeling 3D mental space, making spatial cognition a natural, domain-agnostic foundation for cross-embodiment transfer. Building on this insight, we propose the Scaffold-Specialize-Reconcile~(SSR) paradigm, which first establishes a shared spatial foundation, then cultivates domain-specialized experts, and finally harmonizes them through data-free model merging. Furthermore, we adopt Group Relative Policy Optimization~(GRPO) to strengthen the model's comprehensive capability. Extensive experiments demonstrate that ACE-Brain-0 achieves competitive and even state-of-the-art performance across 24 spatial and embodiment-related benchmarks.
Abstract（参考訳）: ユニバーサル・エンボディド・インテリジェンス (Universal embodied Intelligence) は、自律運転、ロボティクス、無人航空機 (UAV) などの異種エボディメントの堅牢な一般化を要求する。しかし、様々な実施形態に対する統一モデルを訓練する既存の実施脳は、長い尾のデータ、勾配の干渉、破滅的な忘れをしばしば引き起こすため、普遍的な一般化とドメイン固有の熟練度とのバランスが難しいことが知られている。本稿では,空間的推論,自律運転,具体的操作を単一マルチモーダル大言語モデル~MLLMで統合する汎用基礎脳であるACE-Brain-0を紹介する。車両、ロボット、UAVは形態的に大きく異なるが、それらは3Dのメンタルスペースをモデル化するための共通のニーズを共有しており、空間的認知は、クロスエボデーションの自然なドメインに依存しない基盤となっている。この知見に基づいて、まず共有空間基盤を確立し、次にドメイン特化専門家を育成し、最後にデータフリーモデルマージを通じてそれらを調和させるScaffold-specize-Reconcile~(SSR)パラダイムを提案する。さらに、モデルの包括的な能力を強化するために、グループ相対政策最適化~(GRPO)を採用します。大規模な実験により、ACE-Brain-0は、24の空間および実施に関するベンチマークで、競争力と最先端のパフォーマンスを達成している。

関連論文リスト

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文参考訳（メタデータ） (2026-03-03T18:59:29Z)
Brain-OF: An Omnifunctional Foundation Model for fMRI, EEG and MEG [2.783700146328046]
本稿では,fMRI,MEG,EEG入力を統合した脳基礎モデルであるBrain-OFを提案する。 Brain-OFは40のデータセットからなる大規模なコーパスで事前トレーニングされており、さまざまな下流タスクで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2026-02-26T15:47:13Z)
Region-aware Spatiotemporal Modeling with Collaborative Domain Generalization for Cross-Subject EEG Emotion Recognition [15.65302580686776]
物体間変動が強いため、物体間脳波に基づく感情認識は困難である。本研究では、感情認識のための協調的ドメイン一般化を用いた地域対応時空間モデリングフレームワークを提案する。 RSM-CoDGは機能的脳領域分割から派生した先行を組み込んで領域レベルの空間表現を構築する。また、感情誘発神経活動の動的進化を特徴付けるために、マルチスケールの時間モデルも採用している。
論文参考訳（メタデータ） (2026-01-22T03:35:40Z)
REM: Evaluating LLM Embodied Spatial Reasoning through Multi-Frame Trajectories [19.741468026765062]
本稿では,空間推論のための制御可能な3次元環境を用いたベンチマークREM(Reasoning over Embodied Multi-Frame Trajectories)を紹介する。 REMは、オブジェクトの永続性/識別、空間的関係、動的エンボディされた視点における数値的追跡などの重要な側面を体系的に評価する。評価の結果、最高の性能を示す現在のモデルでは、全体的な性能が期待できるが、人間によって容易に扱える程度の複雑性レベルでは信頼性が低下していることがわかった。
論文参考訳（メタデータ） (2025-11-30T05:20:22Z)
SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition [19.526371771173064]
空間認知は実世界のマルチモーダルインテリジェンスの基本であり、モデルが物理的環境と対話できるようにする。既存のベンチマークはしばしば空間認知を単純化し、それを1次元の計量に還元する。本稿では,空間知能を5つの段階に分解する階層的空間認知フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-26T15:04:18Z)
A Unified Geometric Space Bridging AI Models and the Human Brain [24.54324712609098]
現代の人工ニューラルネットワークは、言語、知覚、推論において人間と競合している。これらの人工システムが脳のように情報を整理するかどうかは、いまだに不明である。ここでは、Brain-like Spaceという画期的な概念を紹介します。
論文参考訳（メタデータ） (2025-10-28T12:09:23Z)
How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文参考訳（メタデータ） (2025-09-23T12:00:14Z)
From reactive to cognitive: brain-inspired spatial intelligence for embodied agents [50.99942960312313]
Brain-inspired Space Cognition for Navigation (BSC-Nav) は、エンボディエージェントにおける構造化空間メモリの構築と活用のための統合されたフレームワークである。 BSC-Navは、エゴセントリックな軌跡と文脈的手がかりからアロセントリックな認知マップを構築し、意味的目標に沿った空間的知識を動的に回収する。
論文参考訳（メタデータ） (2025-08-24T03:20:48Z)
CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-06-10T17:20:39Z)
TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。 TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文参考訳（メタデータ） (2025-06-06T17:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。