論文の概要: Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2207.12661v1
- Date: Tue, 26 Jul 2022 05:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:11:36.914409
- Title: Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training
- Title(参考訳): モダリティ共有コントラスト言語-画像事前学習による視覚表現の学習
- Authors: Haoxuan You, Luowei Zhou, Bin Xiao, Noel Codella, Yu Cheng, Ruochen
Xu, Shih-Fu Chang, Lu Yuan
- Abstract要約: 本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
- 参考スコア(独自算出の注目度): 88.80694147730883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale multi-modal contrastive pre-training has demonstrated great
utility to learn transferable features for a range of downstream tasks by
mapping multiple modalities into a shared embedding space. Typically, this has
employed separate encoders for each modality. However, recent work suggests
that transformers can support learning across multiple modalities and allow
knowledge sharing. Inspired by this, we investigate a variety of
Modality-Shared Contrastive Language-Image Pre-training (MS-CLIP) frameworks.
More specifically, we question how many parameters of a transformer model can
be shared across modalities during contrastive pre-training, and rigorously
examine architectural design choices that position the proportion of parameters
shared along a spectrum. In studied conditions, we observe that a mostly
unified encoder for vision and language signals outperforms all other
variations that separate more parameters. Additionally, we find that
light-weight modality-specific parallel modules further improve performance.
Experimental results show that the proposed MS-CLIP approach outperforms
vanilla CLIP by up to 13\% relative in zero-shot ImageNet classification
(pre-trained on YFCC-100M), while simultaneously supporting a reduction of
parameters. In addition, our approach outperforms vanilla CLIP by 1.6 points in
linear probing on a collection of 24 downstream vision tasks. Furthermore, we
discover that sharing parameters leads to semantic concepts from different
modalities being encoded more closely in the embedding space, facilitating the
transferring of common semantic structure (e.g., attention patterns) from
language to vision. Code is available at
\href{https://github.com/Hxyou/MSCLIP}{URL}.
- Abstract(参考訳): 大規模マルチモーダルコントラストプレトレーニングは、複数のモダリティを共有埋め込み空間にマッピングすることにより、ダウンストリームタスクの転送可能な機能を学ぶための優れた有用性を示している。
典型的には、各モダリティに対して別々のエンコーダを用いる。
しかし、最近の研究によると、トランスフォーマは複数のモダリティにわたる学習をサポートし、知識共有を可能にする。
そこで我々は,多種多様なModality-Shared Contrastive Language-Image Pre-Torning (MS-CLIP) フレームワークについて検討した。
より具体的には、対照的な事前トレーニング中にトランスフォーマーモデルのパラメータがどれだけのモダリティで共有できるかを疑問視し、スペクトルに沿って共有されるパラメータの比率を決定するアーキテクチャ設計の選択を厳格に検討する。
学習条件では、視覚と言語信号のほとんど統一されたエンコーダが、より多くのパラメータを分離する他の全てのバリエーションよりも優れていることが観察される。
さらに、軽量なモジュラリティ特化並列モジュールにより、さらなる性能向上が期待できる。
実験の結果, 提案手法は, ゼロショットイメージネット分類(yfcc-100mで事前学習)において, バニラクリップを最大13\%上回り, パラメータ低減を両立させた。
さらに,バニラCLIPを1.6ポイント上回り,24の下流視覚タスクのコレクション上で線形探索を行う。
さらに,パラメータの共有は,言語から視覚への共通意味構造(注意パターンなど)の伝達を容易にするため,組込み空間でより密にエンコードされた異なるモダリティのセマンティック概念に導かれる。
コードは \href{https://github.com/Hxyou/MSCLIP}{URL} で公開されている。
関連論文リスト
- Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。