論文の概要: BLM$_1$: A Boundless Large Model for Cross-Space, Cross-Task, and Cross-Embodiment Learning
- arxiv url: http://arxiv.org/abs/2510.24161v1
- Date: Tue, 28 Oct 2025 07:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.897649
- Title: BLM$_1$: A Boundless Large Model for Cross-Space, Cross-Task, and Cross-Embodiment Learning
- Title(参考訳): BLM$_1$: クロススペース,クロスタスク,クロスエボディメント学習のための境界のない大規模モデル
- Authors: Wentao Tan, Bowen Wang, Heng Zhi, Chenyu Liu, Zhe Li, Jian Liu, Zengrong Lin, Yukun Dai, Yipeng Chen, Wenjie Yang, Enci Xie, Hao Xue, Baixu Ji, Chen Xu, Zhibin Wang, Tianshi Wang, Lei Zhu, Heng Tao Shen,
- Abstract要約: MLLM(Multimodal large language model)は、高度な視覚言語推論を持ち、エンボディエージェントへの展開が増えている。
我々は,ロバストなクロスボディーメント制御をサポートするマルチモーダル空間基盤モデルであるtextbfBoundless Large Model (BLM$_1$)を紹介する。
- 参考スコア(独自算出の注目度): 68.85121620506119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have advanced vision-language reasoning and are increasingly deployed in embodied agents. However, significant limitations remain: MLLMs generalize poorly across digital-physical spaces and embodiments; vision-language-action models (VLAs) produce low-level actions yet lack robust high-level embodied reasoning; and most embodied large language models (ELLMs) are constrained to digital-space with poor generalization to the physical world. Thus, unified models that operate seamlessly across digital and physical spaces while generalizing across embodiments and tasks remain absent. We introduce the \textbf{Boundless Large Model (BLM$_1$)}, a multimodal spatial foundation model that preserves instruction following and reasoning, incorporates embodied knowledge, and supports robust cross-embodiment control. BLM$_1$ integrates three key capabilities -- \textit{cross-space transfer, cross-task learning, and cross-embodiment generalization} -- via a two-stage training paradigm. Stage I injects embodied knowledge into the MLLM through curated digital corpora while maintaining language competence. Stage II trains a policy module through an intent-bridging interface that extracts high-level semantics from the MLLM to guide control, without fine-tuning the MLLM backbone. This process is supported by a self-collected cross-embodiment demonstration suite spanning four robot embodiments and six progressively challenging tasks. Evaluations across digital and physical benchmarks show that a single BLM$_1$ instance outperforms four model families -- MLLMs, ELLMs, VLAs, and GMLMs -- achieving $\sim\!\textbf{6%}$ gains in digital tasks and $\sim\!\textbf{3%}$ in physical tasks.
- Abstract(参考訳): MLLM(Multimodal large language model)は、高度な視覚言語推論を持ち、エンボディエージェントへの展開が増えている。
しかし、MLLMはデジタル物理空間やエンボディメントをまたいだ一般化が不十分であり、視覚言語アクションモデル(VLA)は低レベルなアクションを生成するが、ロバストな高レベルなエンボディド推論を欠いている。
したがって、デジタル空間と物理空間をまたいでシームレスに機能する統一モデルや、具体化やタスクをまたいで一般化するモデルはいまだに存在しない。
我々は,指示の追従と推論を保存し,具体的知識を取り入れ,堅牢なクロスボデーメント制御をサポートするマルチモーダル空間基盤モデルである,‘textbf{Boundless Large Model(BLM$_1$)}を紹介する。
BLM$_1$は、2段階のトレーニングパラダイムを通じて、3つの重要な機能 – \textit{cross-space transfer, cross-task learning, cross-embodiment generalization} – を統合する。
ステージIは、言語能力を維持しながら、キュレートされたデジタルコーパスを通じてMLLMに具体的知識を注入する。
Stage IIはポリシーモジュールを、MLLMのバックボーンを微調整することなく、MLLMから高レベルのセマンティクスを抽出してコントロールをガイドするインテントブリッジインタフェースを通じてトレーニングする。
このプロセスは、4つのロボットエボディメントと6つの段階的な課題からなる自己コンパイル型クロスボディデモスイートによって支援されている。
デジタルと物理のベンチマークによる評価によると、単一のBLM$_1$インスタンスはMLLM、ELLM、VLA、GMLMの4つのモデルファミリを上回り、$\sim\!
\textbf{6%}$ gains in digital task and $\sim\!
物理タスクで \textbf{3%}$。
関連論文リスト
- HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models [50.31704374968706]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解を整合させるための変換的アプローチとして登場した。
それらは通常、多粒度レベルでのクロスモーダルアライメントを達成するために、訓練のために非常に高い計算資源を必要とする。
この非効率性の重要な源は、CLIPやSAMなど、広く採用されている視覚エンコーダであり、多粒度レベルでの言語との整合性が欠如している。
論文 参考訳(メタデータ) (2025-10-23T08:16:44Z) - $\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs [26.779915891040236]
我々は,LLaVA-v1.5 7B上での視線関連注意計算の最大99%,FLOPの最大53.9%を削減できるトレーニングフリープルーニングフレームワークであるemphVisiPrunerを提案する。
さらに、モデルアーキテクチャと本質的なレイヤワイド処理ダイナミクスを整合させることにより、効率的なMLLMのトレーニングのための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-10-20T06:40:17Z) - OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning [22.27715186895943]
エンドツーエンド TIMT に Multi-Task RL をMLLM に適用する最初のフレームワークである MT$3$ を紹介する。
TIMTの複雑さにルールベースのRL戦略を適応させる、新しいマルチミックス報酬機構を用いて訓練されている。
我々のモデルは最新のドメイン内MIT-10Mベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-05-26T09:02:35Z) - Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models [70.41727912081463]
マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。
本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。
我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
論文 参考訳(メタデータ) (2025-05-22T17:59:39Z) - QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning [35.11412101089823]
本稿では,多モーダル大規模言語モデル(MLLM)を4つの視覚-言語-アクションタスクに展開する際の,固有の推論遅延問題に対処する。
言語基盤モデルの性能を劣化させることなく推論効率を向上させるために, QUIRT-Online と呼ばれる新しい待ち時間フリーの4重結合MLLMモデルを提案する。
実験の結果, QUIRT-Onlineは既存のMLLMシステムと連動して動作し, 制御周波数に同期してリアルタイムの推論を実現することがわかった。
論文 参考訳(メタデータ) (2024-12-20T05:17:06Z) - Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models [33.37379526356273]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。