論文の概要: From Pixels to Words -- Towards Native Vision-Language Primitives at Scale
- arxiv url: http://arxiv.org/abs/2510.14979v1
- Date: Thu, 16 Oct 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.012438
- Title: From Pixels to Words -- Towards Native Vision-Language Primitives at Scale
- Title(参考訳): PixelsからWordsへ - 大規模でネイティブなビジョンランゲージプリミティブへ
- Authors: Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu,
- Abstract要約: 私たちは、第一原理から構築されたVLM(Vision-Language Models)の新たなファミリーであるNEOを立ち上げました。
NEOは、密集したモノリシックモデル内で視覚言語間の衝突を緩和しながら、スクラッチから視覚知覚を効率的に発展させる。
私たちのコードとモデルは、https://github.com/EvolvingLMMs-Lab/NEO.comで公開されています。
- 参考スコア(独自算出の注目度): 77.93798335498703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The edifice of native Vision-Language Models (VLMs) has emerged as a rising contender to typical modular VLMs, shaped by evolving model architectures and training paradigms. Yet, two lingering clouds cast shadows over its widespread exploration and promotion: (-) What fundamental constraints set native VLMs apart from modular ones, and to what extent can these barriers be overcome? (-) How to make research in native VLMs more accessible and democratized, thereby accelerating progress in the field. In this paper, we clarify these challenges and outline guiding principles for constructing native VLMs. Specifically, one native VLM primitive should: (i) effectively align pixel and word representations within a shared semantic space; (ii) seamlessly integrate the strengths of formerly separate vision and language modules; (iii) inherently embody various cross-modal properties that support unified vision-language encoding, aligning, and reasoning. Hence, we launch NEO, a novel family of native VLMs built from first principles, capable of rivaling top-tier modular counterparts across diverse real-world scenarios. With only 390M image-text examples, NEO efficiently develops visual perception from scratch while mitigating vision-language conflicts inside a dense and monolithic model crafted from our elaborate primitives. We position NEO as a cornerstone for scalable and powerful native VLMs, paired with a rich set of reusable components that foster a cost-effective and extensible ecosystem. Our code and models are publicly available at: https://github.com/EvolvingLMMs-Lab/NEO.
- Abstract(参考訳): VLM(Vision-Language Models)は、モデルアーキテクチャとトレーニングパラダイムの進化によって形成された、典型的なモジュール型VLMの競合候補として現れている。
しかしながら、2つのリングリングクラウドは、その広範な探索と促進に影を落としている。 (-) ネイティブなVLMをモジュール的なものから切り離すための基本的な制約は、これらの障壁がどの程度克服できるのか?
(-)ネイティブなVLMの研究をよりアクセスし、民主化し、この分野の進歩を加速させる方法。
本稿では,これらの課題を明らかにし,ネイティブなVLMを構築するための指針を概説する。
具体的には、あるネイティブなVLMプリミティブは、
i) 画素と単語表現を共有意味空間内に効果的に整列すること。
(ii)以前は別個の視覚と言語モジュールの強みをシームレスに統合すること。
(iii)本質的には、統一された視覚言語エンコーディング、アライメント、推論をサポートする様々なクロスモーダルな特性を具現化している。
したがって、私たちはNEOをローンチしました。NEOは、第一原理から構築されたネイティブなVLMの新たなファミリーで、さまざまな現実世界のシナリオにまたがる上位階層のモジュールに匹敵する能力を備えています。
NEOは、わずか3億9000万の画像テキストの例で、精巧なプリミティブから作られた高密度でモノリシックなモデルの中で、視覚言語間の衝突を緩和しながら、スクラッチから視覚的知覚を効率的に発展させる。
私たちはNEOをスケーラブルでパワフルなネイティブなVLMの基盤として位置づけ、コスト効率と拡張性のあるエコシステムを育むための、豊富な再利用可能なコンポーネントセットと組み合わせています。
私たちのコードとモデルは、https://github.com/EvolvingLMMs-Lab/NEO.comで公開されています。
関連論文リスト
- Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。
VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。
本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (2024-05-27T15:01:23Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。