論文の概要: Pelican-Unified 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action
- arxiv url: http://arxiv.org/abs/2605.15153v1
- Date: Thu, 14 May 2026 17:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.996592
- Title: Pelican-Unified 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action
- Title(参考訳): Pelican-Unified 1.0: 理解、推論、想像、行動のための統一された身体情報モデル
- Authors: Yi Zhang, Yinda Chen, Che Liu, Zeyuan Ding, Jin Xu, Shilong Zou, Junwei Liao, Jiayu Hu, Xiancong Ren, Xiaopeng Zhang, Yechi Liu, Haoyuan Shi, Zecong Tang, Haosong Sun, Renwen Cui, Kuishu Wu, Wenhai Liu, Yang Xu, Yingji Zhang, Yidong Wang, Senkang Hu, Jinpeng Lu, Nga Teng Chan, Yechen Wu, Yong Dai, Jian Tang, Xiaozhu Ju,
- Abstract要約: Pelican-Unified 1.0は、統一の原則に従って訓練された最初の基礎モデルである。
単一のVLMを統一理解モジュールとして使用し、シーン、指示、視覚的コンテキスト、アクション履歴を共有意味空間にマッピングする。
単一のチェックポイントで、Pelican-Unified 1.0は3つの機能にまたがって強力なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 35.968153930385434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Pelican-Unified 1.0, the first embodied foundation model trained according to the principle of unification. Pelican-Unified 1.0 uses a single VLM as a unified understanding module, mapping scenes, instructions, visual contexts, and action histories into a shared semantic space. The same VLM also serves as a unified reasoning module, autoregressively producing task-, action-, and future-oriented chains of thought in a single forward pass and projecting the final hidden state into a dense latent variable. A Unified Future Generator (UFG) then conditions on this latent variable and jointly generates future videos and future actions through two modality-specific output heads within the same denoising process. The language, video, and action losses are all backpropagated into the shared representation, enabling the model to jointly optimize understanding, reasoning, imagination, and action during training, rather than training three isolated expert systems. Experiments demonstrate that unification does not imply compromise. With a single checkpoint, Pelican-Unified 1.0 achieves strong performance across all three capabilities: 64.7 on eight VLM benchmarks, the best among comparable-scale models; 66.03 on WorldArena, ranking first; and 93.5 on RoboTwin, the second-best average among compared action methods. These results show that the unified paradigm succeeds in preserving specialist strength while bringing understanding, reasoning, imagination, and action into one model.
- Abstract(参考訳): We present Pelican-Unified 1.0, the first embodied foundation model training on the principle of unification。
Pelican-Unified 1.0は単一のVLMを統一理解モジュールとして使用し、シーン、命令、視覚的コンテキスト、アクション履歴を共有意味空間にマッピングする。
同じVLMは統一推論モジュールとしても機能し、タスク、アクション、未来指向の思考のチェーンを単一の前方通過で自動生成し、最後の隠れ状態が密度の高い潜伏変数に投影する。
統一フューチャージェネレータ(UFG)は、この潜伏変数の条件を定め、同じデノナイジングプロセス内で2つのモード固有の出力ヘッドを通して、将来のビデオと将来のアクションを共同で生成する。
言語、ビデオ、アクションの損失はすべて共有表現に逆転し、モデルは3つの独立したエキスパートシステムをトレーニングするのではなく、トレーニング中の理解、推論、想像、アクションを共同で最適化することができる。
実験は統一が妥協を示唆しないことを示した。
8つのVLMベンチマークでは64.7、WorldArenaでは66.03、比較されたアクションメソッドでは93.5、RoboTwinでは93.5である。
これらの結果は、統一パラダイムが、理解、推論、想像、行動の1つのモデルに持ち込みながら、専門的強度を維持することに成功していることを示している。
関連論文リスト
- DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Motus: A Unified Latent Action World Model [31.62340897751899]
我々は、既存の一般的な事前学習モデルとリッチで共有可能な動き情報を活用する統合潜在行動世界モデルであるMotusを提案する。
実験により、Motusはシミュレーションと実世界のシナリオの両方において最先端の手法に対して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-12-15T06:58:40Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Enhanced Continual Learning of Vision-Language Models with Model Fusion [16.764069327701186]
VLM(Vision-Language Models)は、人工知能のブレークスルーである。
VLMは、複数の下流タスクで連続的に微調整されたときに、破滅的な忘れをしがちである。
本稿では,連続的な学習にモデル融合を導入することで,新しいアプローチであるConDUを提案する。
論文 参考訳(メタデータ) (2025-03-12T15:48:13Z) - ProFuser: Progressive Fusion of Large Language Models [53.697927989207045]
トレーニングモードと推論モードの両方を組み込むことで、融合プロセスを強化する新しいアプローチを導入する。
本手法は,トレーニング中のクロスエントロピーだけでなく,推論出力も考慮してモデル優位性を評価する。
ProFuserの有効性を検証するために, vicuna-7b-v1.5, Llama-2-7b-chat, mpt-7b-8k-chatの3つのモデルを融合した。
論文 参考訳(メタデータ) (2024-08-09T11:18:29Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。