論文の概要: Assessing and Learning Alignment of Unimodal Vision and Language Models
- arxiv url: http://arxiv.org/abs/2412.04616v2
- Date: Sat, 19 Apr 2025 15:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 15:07:01.949071
- Title: Assessing and Learning Alignment of Unimodal Vision and Language Models
- Title(参考訳): 一様視覚と言語モデルの評価と学習アライメント
- Authors: Le Zhang, Qian Yang, Aishwarya Agrawal,
- Abstract要約: 本稿では,線形探索にインスパイアされた直接評価手法を提案し,視覚言語アライメントの評価を行う。
次に、下流の視覚言語タスクのために、トレーニング済みのアンモダルビジョンと言語モデルを調整する効率的なトランスファー学習フレームワークであるSwift Alignment of Image and Language(SAIL)を紹介します。
SAILはImageNet(vs.CLIPの72.7%)で73.4%のゼロショット精度を実現し、ゼロショット検索、複雑な推論、セマンティックセグメンテーションに優れる。
- 参考スコア(独自算出の注目度): 24.27638318837459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How well are unimodal vision and language models aligned? Although prior work have approached answering this question, their assessment methods do not directly translate to how these models are used in practical vision-language tasks. In this paper, we propose a direct assessment method, inspired by linear probing, to assess vision-language alignment. We identify that the degree of alignment of the SSL vision models depends on their SSL training objective, and we find that the clustering quality of SSL representations has a stronger impact on alignment performance than their linear separability. Next, we introduce Swift Alignment of Image and Language (SAIL), a efficient transfer learning framework that aligns pretrained unimodal vision and language models for downstream vision-language tasks. Since SAIL leverages the strengths of pretrained unimodal models, it requires significantly fewer (6%) paired image-text data for the multimodal alignment compared to models like CLIP which are trained from scratch. SAIL training only requires a single A100 GPU, 5 hours of training and can accommodate a batch size up to 32,768. SAIL achieves 73.4% zero-shot accuracy on ImageNet (vs. CLIP's 72.7%) and excels in zero-shot retrieval, complex reasoning, and semantic segmentation. Additionally, SAIL improves the language-compatibility of vision encoders that in turn enhance the performance of multimodal large language models. The entire codebase and model weights are open-source: https://lezhang7.github.io/sail.github.io/
- Abstract(参考訳): 単一目的のビジョンと言語モデルは、どの程度整合していますか?
これまでの研究はこの問題に答えようとしていたが、それらの評価手法は、これらのモデルが実用的な視覚言語タスクでどのように使われているかを直接的に翻訳するものではない。
本稿では,線形探索にインスパイアされた直接評価手法を提案し,視覚言語アライメントの評価を行う。
SSLビジョンモデルのアライメントの度合いは、SSLトレーニングの目標に依存しており、SSL表現のクラスタリング品質は、リニアセパビリティよりもアライメントパフォーマンスに強く影響している。
次に、下流の視覚言語タスクのために、トレーニング済みのアンモダルビジョンと言語モデルを調整する効率的なトランスファー学習フレームワークであるSwift Alignment of Image and Language(SAIL)を紹介します。
SAILは事前訓練された単調モデルの強度を利用するため、スクラッチからトレーニングされたCLIPのようなモデルに比べて、マルチモーダルアライメントのための画像テキストデータ(6%)は著しく少ない。
SAILトレーニングは1つのA100 GPUと5時間のトレーニングだけで、最大32,768までのバッチサイズに対応できる。
SAILはImageNet(vs.CLIPの72.7%)で73.4%のゼロショット精度を実現し、ゼロショット検索、複雑な推論、セマンティックセグメンテーションに優れる。
さらに、SAILは視覚エンコーダの言語互換性を改善し、それによってマルチモーダルな大言語モデルの性能を向上させる。
コードベース全体とモデルウェイトはオープンソースである。
関連論文リスト
- Improved Alignment of Modalities in Large Vision Language Models [1.4561960744147884]
本稿では,自動回帰視覚言語モデルの学習戦略を提案する。
視覚モデルを言語モデルと整合させるための4つの訓練段階を提案する。
また、トランスフォーマーベースの言語モデルをトレーニングするための異なる注意マスクも考案した。
論文 参考訳(メタデータ) (2025-03-25T09:59:46Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。
ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文 参考訳(メタデータ) (2024-12-20T20:46:48Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。