論文の概要: Efficient Vision-Language Pretraining with Visual Concepts and
Hierarchical Alignment
- arxiv url: http://arxiv.org/abs/2208.13628v1
- Date: Mon, 29 Aug 2022 14:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:12:42.377435
- Title: Efficient Vision-Language Pretraining with Visual Concepts and
Hierarchical Alignment
- Title(参考訳): 視覚概念と階層的アライメントを用いた効率的な視覚言語学習
- Authors: Mustafa Shukor, Guillaume Couairon, Matthieu Cord
- Abstract要約: a)新しい階層的相互アライメント損失、(b)マスク画像モデリングに基づく新たな自己教師型スキーム、(c)画像レベルのアノテーションを活用することにより、入力データを効率的に活用して学習を促進する新しいフレームワーク、ViCHAを提案する。
事前トレーニングは4倍少ないが、私たちのViCHA戦略は、Image-Text Retrieval、VQA、Visual Reasoning、Visual Entailment、Visual Groundingなど、いくつかの下流タスクにおいて、他のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 40.677139679304936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and Language Pretraining has become the prevalent approach for
tackling multimodal downstream tasks. The current trend is to move towards ever
larger models and pretraining datasets. This computational headlong rush does
not seem reasonable in the long term to move toward sustainable solutions, and
de facto excludes academic laboratories with limited resources. In this work,
we propose a new framework, dubbed ViCHA, that efficiently exploits the input
data to boost the learning by: (a) a new hierarchical cross-modal alignment
loss, (b) new self-supervised scheme based on masked image modeling, (c)
leveraging image-level annotations, called Visual Concepts, obtained with
existing foundation models such as CLIP to boost the performance of the image
encoder. Although pretrained on four times less data, our ViCHA strategy
outperforms other approaches on several downstream tasks such as Image-Text
Retrieval, VQA, Visual Reasoning, Visual Entailment and Visual Grounding. The
code will be made publicly available here: https://github.com/mshukor/ViCHA
- Abstract(参考訳): ビジョンと言語の事前学習は、マルチモーダルなダウンストリームタスクに取り組むための一般的なアプローチになっている。
現在のトレンドは、さらに大きなモデルとデータセットを事前トレーニングすることです。
この計算ヘッドロング・ラッシュは、長期的には持続可能ソリューションへの移行には適していないようで、事実上限られた資源を持つ学術研究所を除外している。
そこで本研究では,入力データを効率的に活用し,学習を促進する新しいフレームワークvichaを提案する。
(a)新しい階層的クロスモーダルアライメント損失。
b)マスク画像モデリングに基づく新たな自己監督方式
(c)画像エンコーダの性能を高めるためにクリップなどの既存の基礎モデルで得られた視覚概念と呼ばれる画像レベルのアノテーションを活用する。
事前トレーニングは4倍少ないが、私たちのViCHA戦略は、Image-Text Retrieval、VQA、Visual Reasoning、Visual Entailment、Visual Groundingなどの下流タスクにおいて、他のアプローチよりも優れている。
コードはここで公開される。 https://github.com/mshukor/ViCHA
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Meta-Learning and Self-Supervised Pretraining for Real World Image
Translation [5.469808405577674]
我々は,新しいマルチタスク・マルチショット画像生成ベンチマークを定式化するために,画像から画像への変換問題について検討する。
軽微な問題に対する基本点をいくつか提示し、異なるアプローチ間のトレードオフについて議論する。
論文 参考訳(メタデータ) (2021-12-22T14:48:22Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Contrastive Visual-Linguistic Pretraining [48.88553854384866]
コントラスト的視覚言語事前学習は、コントラスト的学習に基づいて構築された視覚的自己監督的損失を構成する。
VQA, GQA, NLVR2などの下流タスクで評価した。
論文 参考訳(メタデータ) (2020-07-26T14:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。