論文の概要: RynnBrain: Open Embodied Foundation Models
- arxiv url: http://arxiv.org/abs/2602.14979v1
- Date: Fri, 13 Feb 2026 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.494118
- Title: RynnBrain: Open Embodied Foundation Models
- Title(参考訳): RynnBrain: Open Embodied Foundation Models
- Authors: Ronghao Dang, Jiayan Guo, Bohan Hou, Sicong Leng, Kehan Li, Xin Li, Jiangpin Liu, Yunxuan Mao, Zhikai Wang, Yuqian Yuan, Minghao Zhu, Xiao Lin, Yang Bai, Qian Jiang, Yaxi Zhao, Minghua Zeng, Junlong Gao, Yuming Jiang, Jun Cen, Siteng Huang, Liuyi Wang, Wenqiao Zhang, Chengju Liu, Jianfei Yang, Shijian Lu, Deli Zhao,
- Abstract要約: 我々は,オープンソースのインテリジェンス基盤モデルであるRynnBrainを紹介する。
RynnBrainは統一フレームワークにおける4つのコア機能を強化する。
RynnBrain ファミリーは3つの基礎モデルスケールと4つの訓練後変種から構成される。
- 参考スコア(独自算出の注目度): 91.13999239177097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress in multimodal foundation models, embodied intelligence community still lacks a unified, physically grounded foundation model that integrates perception, reasoning, and planning within real-world spatial-temporal dynamics. We introduce RynnBrain, an open-source spatiotemporal foundation model for embodied intelligence. RynnBrain strengthens four core capabilities in a unified framework: comprehensive egocentric understanding, diverse spatiotemporal localization, physically grounded reasoning, and physics-aware planning. The RynnBrain family comprises three foundation model scales (2B, 8B, and 30B-A3B MoE) and four post-trained variants tailored for downstream embodied tasks (i.e., RynnBrain-Nav, RynnBrain-Plan, and RynnBrain-VLA) or complex spatial reasoning tasks (i.e., RynnBrain-CoP). In terms of extensive evaluations on 20 embodied benchmarks and 8 general vision understanding benchmarks, our RynnBrain foundation models largely outperform existing embodied foundation models by a significant margin. The post-trained model suite further substantiates two key potentials of the RynnBrain foundation model: (i) enabling physically grounded reasoning and planning, and (ii) serving as a strong pretrained backbone that can be efficiently adapted to diverse embodied tasks.
- Abstract(参考訳): マルチモーダル基礎モデルの急速な進歩にもかかわらず、インテリジェンス・コミュニティには、現実の空間時間力学において知覚、推論、計画を統合する統合された物理的基盤モデルがない。
本稿では,オープンソースのインテリジェンスのための時空間基盤モデルRynnBrainを紹介する。
RynnBrainは統合されたフレームワークにおける4つのコア機能を強化している。
RynnBrainファミリーは3つの基礎モデルスケール(2B、8B、30B-A3B MoE)と、下流のエンボディタスク(RynnBrain-Nav、RynnBrain-Plan、RynnBrain-VLA)や複雑な空間推論タスク(RynnBrain-CoP)用に調整された後訓練された4つの変種からなる。
20の実施済みベンチマークと8の一般ビジョン理解ベンチマークに対する広範な評価の観点から、我々のRynnBrainファンデーションモデルは、既存の実施済みファンデーションモデルよりも大幅に優れています。
訓練後モデルスイートは、RynnBrain基盤モデルの2つの重要なポテンシャルをさらに裏付ける。
一 物理的根拠のある推論及び計画を可能にすること、
(二)多種多様な実施作業に効率よく適応できる、強い事前訓練されたバックボーンとして機能する。
関連論文リスト
- World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models [25.135316296678187]
既存の手法は、3Dグラウンドデータを介して統計的ショートカットを過度に適合させるか、2Dの視覚的知覚に限定される。
トレーニング不要な空間情報ツールキット World2Mind を提案する。
我々はWorld2MindがGPT-5.2のようなフロンティアモデルの性能を5%18%向上させることを示した。
論文 参考訳(メタデータ) (2026-03-10T15:12:14Z) - Brain-OF: An Omnifunctional Foundation Model for fMRI, EEG and MEG [2.783700146328046]
本稿では,fMRI,MEG,EEG入力を統合した脳基礎モデルであるBrain-OFを提案する。
Brain-OFは40のデータセットからなる大規模なコーパスで事前トレーニングされており、さまざまな下流タスクで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-02-26T15:47:13Z) - Guiding the Inner Eye: A Framework for Hierarchical and Flexible Visual Grounded Reasoning [6.800544911407401]
GRiP(Guided Reasoning and Perception)は、視覚的根拠に基づく推論のための新しいトレーニングフレームワークである。
GRiPは、モデルの知覚的焦点と論理的経路を明確に導くことによって、堅牢で柔軟な視覚的基盤推論を育む。
GRiPは、非常に挑戦的なTreeBenchとV* Benchで、オープンソースモデルの最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-11-27T07:18:25Z) - SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。
オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-09T17:50:54Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - CSBrain: A Cross-scale Spatiotemporal Brain Foundation Model for EEG Decoding [57.90382885533593]
脳波信号の一般化のためのクロススケール時空間脳基盤モデルを提案する。
CSBrainはタスク固有のベースラインと基盤モデルのベースラインを一貫して上回ります。
これらの結果は、CSBrainを将来の脳-AI研究の強力なバックボーンとして、重要な帰納バイアスとして、クロススケールモデリングを確立している。
論文 参考訳(メタデータ) (2025-06-29T03:29:34Z) - CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。
このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。
第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。
第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T17:20:39Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models [5.02953506943752]
MM-IQは、視覚的推論問題4,776の大規模トレーニングセットと、8つの異なる推論パラダイムにまたがる2,710の精巧にキュレートされたテスト項目からなる総合的な評価フレームワークである。
最先端のアーキテクチャでさえ、ランダムなチャンスに対してわずかに優れたパフォーマンスしか達成できません。
近年の大規模推論モデルの増加にインスパイアされたベースラインとして,検証可能な報酬関数を用いた強化学習によってトレーニングされたマルチモーダル推論モデルもリリースした。
論文 参考訳(メタデータ) (2025-02-02T07:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。