論文の概要: VLDeformer: Learning Visual-Semantic Embeddings by Vision-Language
Transformer Decomposing
- arxiv url: http://arxiv.org/abs/2110.11338v1
- Date: Wed, 20 Oct 2021 09:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 13:48:20.901413
- Title: VLDeformer: Learning Visual-Semantic Embeddings by Vision-Language
Transformer Decomposing
- Title(参考訳): vldeformer:視覚言語トランスフォーメーションによる視覚視覚埋め込みの学習
- Authors: Lisai Zhang and Hongfa Wu and Qingcai Chen and Yimeng Deng and
Zhonghua Li and Dejiang Kong and Zhao Cao and Joanna Siebert and Yunpeng Han
- Abstract要約: 視覚言語変換器(VL変換器)は、クロスモーダル検索において顕著な精度を示している。
本稿では,単一の画像やテキストに対して,VL変換器を個別エンコーダとして変更するための新しい視覚言語変換器分解(VLDeformer)を提案する。
- 参考スコア(独自算出の注目度): 7.890230091463883
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language transformers (VL transformers) have shown impressive accuracy
in cross-modal retrieval. However, most of the existing VL transformers use
early-interaction dataflow that computes a joint representation for the
text-image input. In the retrieval stage, such models need to infer on all the
matched text-image combinations, which causes high computing costs. The goal of
this paper is to decompose the early-interaction dataflow inside the
pre-trained VL transformer to achieve acceleration while maintaining its
outstanding accuracy. To achieve this, we propose a novel Vision-language
Transformer Decomposing (VLDeformer) to modify the VL transformer as an
individual encoder for a single image or text through contrastive learning,
which accelerates retrieval speed by thousands of times. Meanwhile, we propose
to compose bi-modal hard negatives for the contrastive learning objective,
which enables the VLDeformer to maintain the outstanding accuracy of the
backbone VL transformer. Extensive experiments on COCO and Flickr30k datasets
demonstrate the superior performance of the proposed method. Considering both
effectiveness and efficiency, VLDeformer provides a superior selection for
cross-modal retrieval in the similar pre-training datascale.
- Abstract(参考訳): 視覚言語変換器(VL変換器)は、クロスモーダル検索において顕著な精度を示している。
しかし、既存のvlトランスフォーマのほとんどは、テキスト画像入力の結合表現を計算する初期相互作用データフローを使用している。
検索段階では、これらのモデルがマッチしたテキストと画像の組み合わせを推測する必要があるため、高い計算コストがかかる。
本稿では,vl変圧器内における初期相互作用データフローを分解し,その精度を維持しつつ高速化を実現することを目的とする。
そこで本研究では, コントラスト学習により, VL変換器を1つの画像やテキストに対して個別のエンコーダとして修正し, 検索速度を数千倍に高速化する新しい視覚言語変換器(VLDeformer)を提案する。
一方,本研究では,VLDeformerが背骨VL変換器の顕著な精度を維持することができるように,両モードのハードネガをコントラスト学習目的に構成することを提案する。
COCOとFlickr30kデータセットの大規模な実験は、提案手法の優れた性能を示す。
VLDeformerは、有効性と効率の両方を考慮して、類似の事前学習データスケールでのクロスモーダル検索に優れた選択を提供する。
関連論文リスト
- HTR-VT: Handwritten Text Recognition with Vision Transformer [7.997204893256558]
手書き文字認識における視覚変換器(ViT)の適用について検討する。
以前のトランスフォーマーベースのモデルでは、外部データや大規模なデータセットの広範な事前トレーニングが必要だった。
元のパッチ埋め込みの代わりに特徴抽出にConAwareal Neural Network(CNN)を導入し,シャープネス最小化(SAM)エンコーダを用いることで,モデルがフラットなミニマに向けて収束することを保証している。
論文 参考訳(メタデータ) (2024-09-13T06:46:23Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - MAGVLT: Masked Generative Vision-and-Language Transformer [15.796199345773879]
画像とテキストシーケンスの両方を生成可能な統合生成型視覚言語モデルについて検討する。
本稿では,非自己回帰マスク予測に基づく生成VL変換器MAGVLTを提案し,自己回帰生成VL変換器(ARGVLT)と比較する。
MAGVLTと画像テキストペアをスクラッチから厳格に訓練するために、画像からテキスト、テキスト・ツー・イメージ、および共同画像・テキスト・マスク予測タスクを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T21:49:39Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。