Fugu-MT 論文翻訳(概要): SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

論文の概要: SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

arxiv url: http://arxiv.org/abs/2502.14786v1
Date: Thu, 20 Feb 2025 18:08:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.789831
Title: SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
Title（参考訳）: SigLIP 2: セマンティック理解を改善した多言語視覚言語エンコーダ
Authors: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai,
Abstract要約: 我々は、新しい多言語視覚言語エンコーダのファミリーであるSigLIP 2を紹介する。従来の画像テキスト学習の目的を、独立に開発されたいくつかの技術で統一されたレシピに拡張する。新しいトレーニングレシピは、ローカライゼーションと密集した予測タスクに大きな改善をもたらす。
参考スコア（独自算出の注目度）: 48.11426546401525
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training objective with several prior, independently developed techniques into a unified recipe -- this includes captioning-based pretraining, self-supervised losses (self-distillation, masked prediction) and online data curation. With these changes, SigLIP 2 models outperform their SigLIP counterparts at all model scales in core capabilities, including zero-shot classification, image-text retrieval, and transfer performance when extracting visual representations for Vision-Language Models (VLMs). Furthermore, the new training recipe leads to significant improvements on localization and dense prediction tasks. We also train variants which support multiple resolutions and preserve the input's native aspect ratio. Finally, we train on a more diverse data-mixture that includes de-biasing techniques, leading to much better multilingual understanding and improved fairness. To allow users to trade off inference cost with performance, we release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M), and g (1B).
Abstract（参考訳）: 本稿では,従来のSigLIPの成功に基づいて構築された,多言語視覚言語エンコーダのファミリーであるSigLIP 2を紹介する。この2回目のイテレーションでは、オリジナル画像テキストトレーニングの目標を、独立して開発されたいくつかのテクニックを、キャプションベースの事前学習、自己監督的損失(自己蒸留、マスク付き予測)、オンラインデータキュレーションを含む統一されたレシピに拡張します。これらの変更により、SigLIP 2モデルは、ゼロショット分類、画像テキスト検索、視覚言語モデル(VLM)の視覚表現を抽出する際の転送性能など、コア機能におけるSigLIPモデルよりも優れたパフォーマンスを発揮する。さらに、新しいトレーニングレシピは、ローカライゼーションと密集予測タスクを大幅に改善する。また、複数の解像度をサポートする変種を訓練し、入力のネイティブアスペクト比を保存する。最後に、デバイアス技術を含む、より多様なデータミックスをトレーニングすることで、より優れた多言語理解と公正性を実現します。ユーザによる推論コストと性能のトレードオフを可能にするため、ViT-B (86M)、L (303M)、So400m (400M)、g (1B)の4つのサイズでモデルチェックポイントをリリースする。

関連論文リスト

TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models [17.444066202370397]
言語間移動により、視覚言語モデルは1つの言語でのみトレーニングデータを用いて様々な言語で視覚タスクを実行することができる。現在のアプローチは、大規模で訓練済みの多言語言語モデルに依存している。本稿では,事前学習したVLM Florence-2と大規模言語モデルGemma-2を組み合わせた,0.4Bから11.2Bの単一言語エンコーダVLMであるFlorenzを提案する。
論文参考訳（メタデータ） (2025-03-12T14:41:10Z)
A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models [17.144311122664508]
大規模データに事前訓練された大規模ビジョンと言語モデルは、視覚的および言語的先行性を符号化する。画像記述の仕方を改善するための多段階画像キャプション手法として,チェーン・オブ・シント(CoT)メタラーニング手法を提案する。
論文参考訳（メタデータ） (2025-02-19T18:35:43Z)
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文参考訳（メタデータ） (2024-12-20T20:46:48Z)
APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。 APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文参考訳（メタデータ） (2023-12-04T01:42:09Z)
mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文参考訳（メタデータ） (2023-07-13T17:51:58Z)
Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文参考訳（メタデータ） (2022-10-09T15:40:13Z)
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文参考訳（メタデータ） (2022-09-14T05:47:02Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。