論文の概要: Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens
- arxiv url: http://arxiv.org/abs/2303.14865v1
- Date: Mon, 27 Mar 2023 00:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:14:57.621368
- Title: Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens
- Title(参考訳): コントラスト学習におけるマルチモーダル表現の再検討:パッチとトークン埋め込みから離散トークンへ
- Authors: Yuxiao Chen, Jianbo Yuan, Yu Tian, Shijie Geng, Xinyu Li, Ding Zhou,
Dimitris N. Metaxas, Hongxia Yang
- Abstract要約: 本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
- 参考スコア(独自算出の注目度): 76.40196364163663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning-based vision-language pre-training approaches, such as
CLIP, have demonstrated great success in many vision-language tasks. These
methods achieve cross-modal alignment by encoding a matched image-text pair
with similar feature embeddings, which are generated by aggregating information
from visual patches and language tokens. However, direct aligning cross-modal
information using such representations is challenging, as visual patches and
text tokens differ in semantic levels and granularities. To alleviate this
issue, we propose a Finite Discrete Tokens (FDT) based multimodal
representation. FDT is a set of learnable tokens representing certain
visual-semantic concepts. Both images and texts are embedded using shared FDT
by first grounding multimodal inputs to FDT space and then aggregating the
activated FDT representations. The matched visual and semantic concepts are
enforced to be represented by the same set of discrete tokens by a sparse
activation constraint. As a result, the granularity gap between the two
modalities is reduced. Through both quantitative and qualitative analyses, we
demonstrate that using FDT representations in CLIP-style models improves
cross-modal alignment and performance in visual recognition and vision-language
downstream tasks. Furthermore, we show that our method can learn more
comprehensive representations, and the learned FDT capture meaningful
cross-modal correspondence, ranging from objects to actions and attributes.
- Abstract(参考訳): CLIPのような対照的な学習ベースの視覚言語事前学習アプローチは多くの視覚言語タスクで大きな成功を収めている。
これらの手法は、視覚パッチと言語トークンから情報を集約して生成された類似した特徴埋め込みでマッチングされた画像テキストペアを符号化することにより、交叉型アライメントを実現する。
しかし,視覚パッチやテキストトークンは意味レベルや粒度が異なるため,このような表現を用いたクロスモーダル情報の直接調整は困難である。
この問題を軽減するために,FDT(Finite Discrete Tokens)に基づくマルチモーダル表現を提案する。
fdtは、ある種の視覚的概念を表す学習可能なトークンのセットである。
画像とテキストは、FDT空間にマルチモーダル入力をグラウンディングし、活性化されたFDT表現を集約することで、共有FDTを使用して埋め込む。
マッチしたビジュアル概念とセマンティック概念は、スパースアクティベーション制約によって同じ離散トークンセットで表現されるように強制される。
これにより、2つのモード間の粒度ギャップが低減される。
定量的・質的分析を通じ,クリップスタイルモデルにおけるfdt表現を用いることで,視覚認識や視覚言語下流タスクにおけるクロスモーダルアライメントとパフォーマンスが向上することを示す。
さらに,本手法はより包括的な表現を学習できることを示し,学習したfdtはオブジェクトからアクションや属性まで,有意義なクロスモーダル対応を捉える。
関連論文リスト
- Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Enhancing Vision-Language Model with Unmasked Token Alignment [37.12838142681491]
本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。
UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文 参考訳(メタデータ) (2024-05-29T11:48:17Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。