論文の概要: SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
- arxiv url: http://arxiv.org/abs/2502.14786v1
- Date: Thu, 20 Feb 2025 18:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:17.305789
- Title: SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
- Title(参考訳): SigLIP 2: セマンティック理解を改善した多言語視覚言語エンコーダ
- Authors: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai,
- Abstract要約: 我々は、新しい多言語視覚言語エンコーダのファミリーであるSigLIP 2を紹介する。
従来の画像テキスト学習の目的を、独立に開発されたいくつかの技術で統一されたレシピに拡張する。
新しいトレーニングレシピは、ローカライゼーションと密集した予測タスクに大きな改善をもたらす。
- 参考スコア(独自算出の注目度): 48.11426546401525
- License:
- Abstract: We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training objective with several prior, independently developed techniques into a unified recipe -- this includes captioning-based pretraining, self-supervised losses (self-distillation, masked prediction) and online data curation. With these changes, SigLIP 2 models outperform their SigLIP counterparts at all model scales in core capabilities, including zero-shot classification, image-text retrieval, and transfer performance when extracting visual representations for Vision-Language Models (VLMs). Furthermore, the new training recipe leads to significant improvements on localization and dense prediction tasks. We also train variants which support multiple resolutions and preserve the input's native aspect ratio. Finally, we train on a more diverse data-mixture that includes de-biasing techniques, leading to much better multilingual understanding and improved fairness. To allow users to trade off inference cost with performance, we release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M), and g (1B).
- Abstract(参考訳): 本稿では,従来のSigLIPの成功に基づいて構築された,多言語視覚言語エンコーダのファミリーであるSigLIP 2を紹介する。
この2回目のイテレーションでは、オリジナル画像テキストトレーニングの目標を、独立して開発されたいくつかのテクニックを、キャプションベースの事前学習、自己監督的損失(自己蒸留、マスク付き予測)、オンラインデータキュレーションを含む統一されたレシピに拡張します。
これらの変更により、SigLIP 2モデルは、ゼロショット分類、画像テキスト検索、視覚言語モデル(VLM)の視覚表現を抽出する際の転送性能など、コア機能におけるSigLIPモデルよりも優れたパフォーマンスを発揮する。
さらに、新しいトレーニングレシピは、ローカライゼーションと密集予測タスクを大幅に改善する。
また、複数の解像度をサポートする変種を訓練し、入力のネイティブアスペクト比を保存する。
最後に、デバイアス技術を含む、より多様なデータミックスをトレーニングすることで、より優れた多言語理解と公正性を実現します。
ユーザによる推論コストと性能のトレードオフを可能にするため、ViT-B (86M)、L (303M)、So400m (400M)、g (1B)の4つのサイズでモデルチェックポイントをリリースする。
関連論文リスト
- A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models [17.144311122664508]
大規模データに事前訓練された大規模ビジョンと言語モデルは、視覚的および言語的先行性を符号化する。
画像記述の仕方を改善するための多段階画像キャプション手法として,チェーン・オブ・シント(CoT)メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:35:43Z) - DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。
ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文 参考訳(メタデータ) (2024-12-20T20:46:48Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。