論文の概要: PaLI-3 Vision Language Models: Smaller, Faster, Stronger
- arxiv url: http://arxiv.org/abs/2310.09199v1
- Date: Fri, 13 Oct 2023 15:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 12:22:12.314794
- Title: PaLI-3 Vision Language Models: Smaller, Faster, Stronger
- Title(参考訳): PaLI-3ビジョン言語モデル: より小さく、より速く、より強く
- Authors: Xi Chen, Xiao Wang, Lucas Beyer, Alexander Kolesnikov, Jialin Wu, Paul
Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr
Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong,
Tianli Yu, Daniel Keysers, Xiaohua Zhai, Radu Soricut
- Abstract要約: PaLI-3は、より小さく、より速く、より強力な視覚言語モデル(VLM)であり、10倍大きい類似のモデルと好意的に比較できる。
SigLIPベースのPaLIは、標準画像分類ベンチマークでは若干性能が劣っているものの、様々なマルチモーダルベンチマークにおいて優れた性能を示している。
- 参考スコア(独自算出の注目度): 82.6453282241224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents PaLI-3, a smaller, faster, and stronger vision language
model (VLM) that compares favorably to similar models that are 10x larger. As
part of arriving at this strong performance, we compare Vision Transformer
(ViT) models pretrained using classification objectives to contrastively
(SigLIP) pretrained ones. We find that, while slightly underperforming on
standard image classification benchmarks, SigLIP-based PaLI shows superior
performance across various multimodal benchmarks, especially on localization
and visually-situated text understanding. We scale the SigLIP image encoder up
to 2 billion parameters, and achieves a new state-of-the-art on multilingual
cross-modal retrieval. We hope that PaLI-3, at only 5B parameters, rekindles
research on fundamental pieces of complex VLMs, and could fuel a new generation
of scaled-up models.
- Abstract(参考訳): 本稿では,より小さく,より速く,より強力な視覚言語モデル(VLM)であるPaLI-3について述べる。
この強力な性能に到達するために、分類目的を用いて事前訓練されたビジョントランスフォーマー(ViT)モデルと、対照的に(SigLIP)事前訓練されたモデルを比較した。
SigLIPベースのPaLIは、標準的な画像分類ベンチマークでは若干性能が劣るが、様々なマルチモーダルベンチマーク、特にローカライゼーションと視覚的テキスト理解において、優れた性能を示す。
siglip画像エンコーダを最大20億のパラメータにスケールし,多言語横断モーダル検索における新たな最先端を実現する。
PaLI-3は、わずか5Bのパラメータで、複雑なVLMの基本部品の研究を再開し、新しい世代のスケールアップモデルに拍車をかけることを願っている。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter [21.45490901191175]
PaLM2-VAdapterは、視覚言語アダプタとして徐々に整列した言語モデルを採用している。
提案手法は、最先端の大規模視覚言語モデルよりも3070%少ないパラメータでこれらの進歩を実現する。
論文 参考訳(メタデータ) (2024-02-16T18:54:47Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - Training Vision-Language Transformers from Captions [80.00302205584335]
我々は,Masked Auto-Encoders上に構築されたVLC(Vision-Language from Captions)を新たに導入する。
ViLTと我々のモデルとの直接比較の結果、我々の手法は標準ベンチマークにおいてViLTよりも優れていることが判明した。
論文 参考訳(メタデータ) (2022-05-19T00:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。