論文の概要: Assessing and Learning Alignment of Unimodal Vision and Language Models
- arxiv url: http://arxiv.org/abs/2412.04616v1
- Date: Thu, 05 Dec 2024 21:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:21.964940
- Title: Assessing and Learning Alignment of Unimodal Vision and Language Models
- Title(参考訳): 一様視覚と言語モデルの評価と学習アライメント
- Authors: Le Zhang, Qian Yang, Aishwarya Agrawal,
- Abstract要約: 本稿では,線形探索にインスパイアされた直接評価手法を提案し,視覚言語アライメントの評価を行う。
次に、下流の視覚言語タスクのために、トレーニング済みのアンモダルビジョンと言語モデルを調整する効率的なトランスファー学習フレームワークであるSwift Alignment of Image and Language(SAIL)を紹介します。
SAILはImageNet(vs.CLIPの72.7%)で73.4%のゼロショット精度を実現し、ゼロショット検索、複雑な推論、セマンティックセグメンテーションに優れる。
- 参考スコア(独自算出の注目度): 24.27638318837459
- License:
- Abstract: How well are unimodal vision and language models aligned? Although prior work have approached answering this question, their assessment methods do not directly translate to how these models are used in practical vision-language tasks. In this paper, we propose a direct assessment method, inspired by linear probing, to assess vision-language alignment. We identify that the degree of alignment of the SSL vision models depends on their SSL training objective, and we find that the clustering quality of SSL representations has a stronger impact on alignment performance than their linear separability. Next, we introduce Swift Alignment of Image and Language (SAIL), a efficient transfer learning framework that aligns pretrained unimodal vision and language models for downstream vision-language tasks. Since SAIL leverages the strengths of pretrained unimodal models, it requires significantly fewer (6%) paired image-text data for the multimodal alignment compared to models like CLIP which are trained from scratch. SAIL training only requires a single A100 GPU, 5 hours of training and can accommodate a batch size up to 32,768. SAIL achieves 73.4% zero-shot accuracy on ImageNet (vs. CLIP's 72.7%) and excels in zero-shot retrieval, complex reasoning, and semantic segmentation. Additionally, SAIL improves the language-compatibility of vision encoders that in turn enhance the performance of multimodal large language models. The entire codebase and model weights are open-source: https://lezhang7.github.io/sail.github.io/
- Abstract(参考訳): 単一目的のビジョンと言語モデルは、どの程度整合していますか?
これまでの研究はこの問題に答えようとしていたが、それらの評価手法は、これらのモデルが実用的な視覚言語タスクでどのように使われているかを直接的に翻訳するものではない。
本稿では,線形探索にインスパイアされた直接評価手法を提案し,視覚言語アライメントの評価を行う。
SSLビジョンモデルのアライメントの度合いは、SSLトレーニングの目標に依存しており、SSL表現のクラスタリング品質は、リニアセパビリティよりもアライメントパフォーマンスに強く影響している。
次に、下流の視覚言語タスクのために、トレーニング済みのアンモダルビジョンと言語モデルを調整する効率的なトランスファー学習フレームワークであるSwift Alignment of Image and Language(SAIL)を紹介します。
SAILは事前訓練された単調モデルの強度を利用するため、スクラッチからトレーニングされたCLIPのようなモデルに比べて、マルチモーダルアライメントのための画像テキストデータ(6%)は著しく少ない。
SAILトレーニングは1つのA100 GPUと5時間のトレーニングだけで、最大32,768までのバッチサイズに対応できる。
SAILはImageNet(vs.CLIPの72.7%)で73.4%のゼロショット精度を実現し、ゼロショット検索、複雑な推論、セマンティックセグメンテーションに優れる。
さらに、SAILは視覚エンコーダの言語互換性を改善し、それによってマルチモーダルな大言語モデルの性能を向上させる。
コードベース全体とモデルウェイトはオープンソースである。
関連論文リスト
- A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文 参考訳(メタデータ) (2024-07-22T09:16:30Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。
教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文 参考訳(メタデータ) (2023-01-07T17:24:11Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - How to Adapt Pre-trained Vision-and-Language Models to a Text-only
Input? [0.13706331473063876]
我々は、すでに言語理解能力にいくつかの結果がある、事前訓練されたマルチモーダル・ビジョン・アンド・ランゲージ(VL)モデルに焦点を当てる。
これらのモデルの言語的スキルを評価する上で未解決の問題は、アウト・オブ・ディストリビューションの不確実性なしにテキストのみの入力に適応する方法が確立されていないことである。
GLUEとVisual Property Norms(VPN)の評価は、VLモデルをゼロショットのテキストのみのタスクに適応させるのに対して、モデルは非ゼロショットのタスクに適応する方法に敏感でないことを示す。
論文 参考訳(メタデータ) (2022-09-19T13:00:12Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。