論文の概要: The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer
- arxiv url: http://arxiv.org/abs/2504.10462v1
- Date: Mon, 14 Apr 2025 17:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:15.885610
- Title: The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer
- Title(参考訳): シンプルさのスケーラビリティ:単一変圧器を用いた視覚言語学習の実証分析
- Authors: Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang,
- Abstract要約: 本稿では,単一変圧器統合多モーダル大言語モデル(MLLM)であるSAILを紹介する。
事前訓練された視覚変換器(ViT)に依存している既存のモジュール型MLLMとは異なり、SAILは別個の視覚エンコーダを必要としない。
我々は,SAILの特性(スケーラビリティ,クロスモーダル情報フローパターン,視覚表現能力など)をモジュール型MLLMと体系的に比較した。
- 参考スコア(独自算出の注目度): 68.71557348281007
- License:
- Abstract: This paper introduces SAIL, a single transformer unified multimodal large language model (MLLM) that integrates raw pixel encoding and language decoding within a singular architecture. Unlike existing modular MLLMs, which rely on a pre-trained vision transformer (ViT), SAIL eliminates the need for a separate vision encoder, presenting a more minimalist architecture design. Instead of introducing novel architectural components, SAIL adapts mix-attention mechanisms and multimodal positional encodings to better align with the distinct characteristics of visual and textual modalities. We systematically compare SAIL's properties-including scalability, cross-modal information flow patterns, and visual representation capabilities-with those of modular MLLMs. By scaling both training data and model size, SAIL achieves performance comparable to modular MLLMs. Notably, the removal of pretrained ViT components enhances SAIL's scalability and results in significantly different cross-modal information flow patterns. Moreover, SAIL demonstrates strong visual representation capabilities, achieving results on par with ViT-22B in vision tasks such as semantic segmentation. Code and models are available at https://github.com/bytedance/SAIL.
- Abstract(参考訳): 本稿では,1つのトランスフォーマーを統一したマルチモーダル言語モデル (MLLM) であるSAILについて述べる。
事前訓練された視覚変換器(ViT)に依存している既存のモジュール型MLLMとは異なり、SAILは独立した視覚エンコーダの必要性を排除し、よりミニマリストなアーキテクチャ設計を提供する。
新規なアーキテクチャコンポーネントを導入する代わりに、SAILは、視覚的およびテキスト的モダリティの異なる特徴に適合するように、ミックスアテンション機構とマルチモーダルな位置エンコーディングを適用する。
我々は,SAILの特性(スケーラビリティ,クロスモーダル情報フローパターン,視覚表現能力など)をモジュール型MLLMと体系的に比較した。
トレーニングデータとモデルサイズの両方をスケールすることで、SAILはモジュラMLLMに匹敵するパフォーマンスを達成する。
特に、事前訓練されたViTコンポーネントの削除は、SAILのスケーラビリティを高め、結果として、相互モーダルな情報フローパターンを著しく異なるものにする。
さらに、SAILは強力な視覚表現能力を示し、セマンティックセグメンテーションのような視覚タスクにおいて、ViT-22Bと同等の結果を得る。
コードとモデルはhttps://github.com/bytedance/SAILで入手できる。
関連論文リスト
- SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Seeing Syntax: Uncovering Syntactic Learning Limitations in Vision-Language Models [18.87130615326443]
視覚言語モデル(VLM)は、画像キャプションとテキスト・ツー・イメージ生成の基礎モデルとして機能する。
近年の研究では、VLMテキストエンコーダ(特に構成性や意味理解など)の制限が強調されている。
論文 参考訳(メタデータ) (2024-12-11T05:37:04Z) - EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。
本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文 参考訳(メタデータ) (2024-10-08T11:41:55Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Ovis: Structural Embedding Alignment for Multimodal Large Language Model [41.32013722697081]
Ovisは、視覚とテキストの埋め込みを構造的に整列するように設計された新しいMLLMアーキテクチャである。
Ovisは学習可能なビジュアル埋め込みテーブルをビジュアルエンコーダのプロセスに統合する。
様々なマルチモーダルベンチマークにおける実証的な評価は、OvisがオープンソースMLLMよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-05-31T13:59:18Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。