論文の概要: SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
- arxiv url: http://arxiv.org/abs/2502.14786v1
- Date: Thu, 20 Feb 2025 18:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:17.305789
- Title: SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
- Title(参考訳): SigLIP 2: セマンティック理解を改善した多言語視覚言語エンコーダ
- Authors: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai,
- Abstract要約: 我々は、新しい多言語視覚言語エンコーダのファミリーであるSigLIP 2を紹介する。
従来の画像テキスト学習の目的を、独立に開発されたいくつかの技術で統一されたレシピに拡張する。
新しいトレーニングレシピは、ローカライゼーションと密集した予測タスクに大きな改善をもたらす。
- 参考スコア(独自算出の注目度): 48.11426546401525
- License:
- Abstract: We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training objective with several prior, independently developed techniques into a unified recipe -- this includes captioning-based pretraining, self-supervised losses (self-distillation, masked prediction) and online data curation. With these changes, SigLIP 2 models outperform their SigLIP counterparts at all model scales in core capabilities, including zero-shot classification, image-text retrieval, and transfer performance when extracting visual representations for Vision-Language Models (VLMs). Furthermore, the new training recipe leads to significant improvements on localization and dense prediction tasks. We also train variants which support multiple resolutions and preserve the input's native aspect ratio. Finally, we train on a more diverse data-mixture that includes de-biasing techniques, leading to much better multilingual understanding and improved fairness. To allow users to trade off inference cost with performance, we release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M), and g (1B).
- Abstract(参考訳): 本稿では,従来のSigLIPの成功に基づいて構築された,多言語視覚言語エンコーダのファミリーであるSigLIP 2を紹介する。
この2回目のイテレーションでは、オリジナル画像テキストトレーニングの目標を、独立して開発されたいくつかのテクニックを、キャプションベースの事前学習、自己監督的損失(自己蒸留、マスク付き予測)、オンラインデータキュレーションを含む統一されたレシピに拡張します。
これらの変更により、SigLIP 2モデルは、ゼロショット分類、画像テキスト検索、視覚言語モデル(VLM)の視覚表現を抽出する際の転送性能など、コア機能におけるSigLIPモデルよりも優れたパフォーマンスを発揮する。
さらに、新しいトレーニングレシピは、ローカライゼーションと密集予測タスクを大幅に改善する。
また、複数の解像度をサポートする変種を訓練し、入力のネイティブアスペクト比を保存する。
最後に、デバイアス技術を含む、より多様なデータミックスをトレーニングすることで、より優れた多言語理解と公正性を実現します。
ユーザによる推論コストと性能のトレードオフを可能にするため、ViT-B (86M)、L (303M)、So400m (400M)、g (1B)の4つのサイズでモデルチェックポイントをリリースする。
関連論文リスト
- A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene [11.265838907079196]
概念的にシンプルだが効果的なCLIP圧縮フレームワークを提案し、中国語と英語の両方の文脈で、DC-CLIPと呼ばれる軽量な多言語視覚言語モデルを訓練する。
本研究では,高品質な中国語と英語のテキストイメージを収集し,多言語視覚言語の特徴蒸留とアライメントを含む2つの訓練段階を設計する。
ELEVATERベンチマークに基づくゼロショット画像分類における総合的な実験により、DC-CLIPは英語の文脈において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-04-17T10:56:06Z) - Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities [11.53488611812612]
近年のVision-Language(VL)モデルの進歩は、エッジデバイスへの展開への関心を喚起している。
We introduced EdgeVL, a novel framework that seamlessly integrates dual-modality knowledge distillation and Quantization-aware contrastive learning。
私たちの研究は、エッジデプロイメントに大規模なVLモデルを適応するための最初の体系的な取り組みであり、複数のデータセットで最大15.4%の精度向上と、最大93倍のモデルサイズ削減を示している。
論文 参考訳(メタデータ) (2024-03-07T21:34:40Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。