論文の概要: Single-Stream Multi-Level Alignment for Vision-Language Pretraining
- arxiv url: http://arxiv.org/abs/2203.14395v1
- Date: Sun, 27 Mar 2022 21:16:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 15:38:00.666806
- Title: Single-Stream Multi-Level Alignment for Vision-Language Pretraining
- Title(参考訳): 視覚言語事前学習のための単一ストリーム多レベルアライメント
- Authors: Zaid Khan, Vijay Kumar BG, Xiang Yu, Samuel Schulter, Manmohan
Chandraker, Yun Fu
- Abstract要約: モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 103.09776737512078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in large-scale vision-language pre-training has shown the
importance of aligning the visual and text modalities for downstream
vision-language tasks. Many methods use a dual-stream architecture that fuses
visual tokens and language tokens after representation learning, which aligns
only at a global level and cannot extract finer-scale semantics.In contrast, we
propose a single stream model that aligns the modalities at multiple levels: i)
instance level, ii) fine-grained patch level, iii) conceptual semantic level.
We achieve this using two novel tasks: symmetric cross-modality reconstruction
and a pseudo-labeled key word prediction. In the former part, we mask the input
tokens from one of the modalities and use the cross-modal information to
reconstruct the masked token, thus improving fine-grained alignment between the
two modalities. In the latter part, we parse the caption to select a few key
words and feed it together with the momentum encoder pseudo signal to
self-supervise the visual encoder, enforcing it to learn rich semantic concepts
that are essential for grounding a textual token to an image region. We
demonstrate top performance on a set of Vision-Language downstream tasks such
as zero-shot/fine-tuned image/text retrieval, referring expression, and VQA. We
also demonstrate how the proposed models can align the modalities at multiple
levels.
- Abstract(参考訳): 大規模視覚言語事前学習の最近の進歩は、下流視覚言語タスクにおける視覚とテキストの調整の重要性を示している。
多くの手法は、表現学習後に視覚トークンと言語トークンを融合させるデュアルストリームアーキテクチャを用いており、グローバルレベルでしか整列せず、より微細な意味論を抽出できない。
i) インスタンスレベル
ii) きめ細かいパッチレベル
iii)概念意味レベル。
対称クロスモダリティ再構築と疑似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
前者では、モダリティの1つから入力トークンをマスキングし、クロスモーダル情報を用いてマスクトークンを再構築し、2つのモダリティ間の微粒化アライメントを改善する。
後段では、キャプションを解析していくつかのキーワードを選択し、モーメントエンコーダ擬似信号と共に入力し、視覚エンコーダを自己監督し、テキストトークンを画像領域に基底付けるのに不可欠な、リッチなセマンティックな概念を学習させる。
我々は,ゼロショット/微調整画像/テキスト検索,参照表現,vqaなどの視覚言語下流タスクにおいて,トップパフォーマンスを示す。
また、提案したモデルが複数のレベルでモダリティを整列させる方法を示す。
関連論文リスト
- Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - MVP: Multi-Stage Vision-Language Pre-Training via Multi-Level Semantic
Alignment [24.720485548282845]
言語と視覚のための2段階の意味表現を構築するために,両モードの概念を導入する。
我々は、一様学習と多様学習という2つの段階において、相互モダリティモデルを訓練する。
我々のモデルは、いくつかのビジョンと言語タスクに関する最先端の結果を生成する。
論文 参考訳(メタデータ) (2022-01-29T14:30:59Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple
Levels [35.57369098866317]
大規模画像テキストペアによる視覚言語事前学習では,クロスモーダル表現の学習が急速に進展している。
画像とテキストの表現の低レベルと高レベルのセマンティクスを協調的に調整する新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-14T02:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。