論文の概要: Pelican-VL 1.0: A Foundation Brain Model for Embodied Intelligence
- arxiv url: http://arxiv.org/abs/2511.00108v1
- Date: Thu, 30 Oct 2025 19:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.606948
- Title: Pelican-VL 1.0: A Foundation Brain Model for Embodied Intelligence
- Title(参考訳): Pelican-VL 1.0: 身体知のための基礎脳モデル
- Authors: Yi Zhang, Che Liu, Xiancong Ren, Hanchu Ni, Shuai Zhang, Zeyuan Ding, Jiayu Hu, Hanzhe Shan, Zhenwei Niu, Zhaoyang Liu, Yue Zhao, Junbo Qi, Qinfan Zhang, Dengjie Li, Yidong Wang, Jiachen Luo, Yong Dai, Jian Tang, Xiaozhu Ju,
- Abstract要約: Pelican-VL 1.0は、オープンソースの最も大規模なマルチモーダル脳モデルである。
その主な利点は、データパワーとインテリジェント適応学習メカニズムの深い統合にある。
Pelican-VL 1.0は、チェックポイント当たり1000以上のA800 GPU-hoursの大規模クラスタでトレーニングされている。
- 参考スコア(独自算出の注目度): 33.27185589155096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents Pelican-VL 1.0, a new family of open-source embodied brain models with parameter scales ranging from 7 billion to 72 billion. Our explicit mission is clearly stated as: To embed powerful intelligence into various embodiments. Pelican-VL 1.0 is currently the largest-scale open-source embodied multimodal brain model. Its core advantage lies in the in-depth integration of data power and intelligent adaptive learning mechanisms. Specifically, metaloop distilled a high-quality dataset from a raw dataset containing 4+ billion tokens. Pelican-VL 1.0 is trained on a large-scale cluster of 1000+ A800 GPUs, consuming over 50k+ A800 GPU-hours per checkpoint. This translates to a 20.3% performance uplift from its base model and outperforms 100B-level open-source counterparts by 10.6%, placing it on par with leading proprietary systems on well-known embodied benchmarks. We establish a novel framework, DPPO (Deliberate Practice Policy Optimization), inspired by human metacognition to train Pelican-VL 1.0. We operationalize this as a metaloop that teaches the AI to practice deliberately, which is a RL-Refine-Diagnose-SFT loop.
- Abstract(参考訳): 本報告では、70億から72億のパラメータスケールを持つオープンソースの新しい脳モデルであるPelican-VL 1.0を提示する。
我々の明確な使命は、次のように明確に述べられている。
Pelican-VL 1.0は現在、オープンソースの最大規模のマルチモーダル脳モデルである。
その主な利点は、データパワーとインテリジェント適応学習メカニズムの深い統合にある。
具体的には、メタループは、4億以上のトークンを含む生のデータセットから高品質なデータセットを蒸留した。
Pelican-VL 1.0は1000以上のA800 GPUの大規模クラスタでトレーニングされており、チェックポイント当たり50k以上のA800 GPU-hourを消費している。
これはベースモデルからの20.3%のパフォーマンス向上を意味し、100Bレベルのオープンソース性能を10.6%上回り、著名なプロプライエタリシステムとよく知られたベンチマークで同等である。
我々は,ペリカンVL 1.0を訓練するために,人間のメタ認知に触発された新しい枠組みDPPO(Deliberate Practice Policy Optimization)を構築した。
我々はこれを、RL-Refine-Diagnose-SFTループであるAIに故意に実践を教えるメタループとして運用する。
関連論文リスト
- Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。
本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文 参考訳(メタデータ) (2025-02-12T06:05:52Z) - 1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data [0.0]
本稿では,9日間で言語モデル"1.5-Pints"を事前学習するための計算効率のよい手法を提案する。
MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて、1.5-PintsはAppleのOpenELMとMicrosoftのPhiを上回っている。
これは、自動化された人間によるレビューと手動によるレビューを組み合わせて、57億トークンのトレーニング済みデータセットを慎重にキュレートすることで達成される。
論文 参考訳(メタデータ) (2024-08-07T02:14:52Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。