論文の概要: LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval
- arxiv url: http://arxiv.org/abs/2203.05465v1
- Date: Thu, 10 Mar 2022 16:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:17:40.771770
- Title: LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval
- Title(参考訳): loopitr: 画像テキスト検索のためのデュアルエンコーダとクロスエンコーダの組み合わせ
- Authors: Jie Lei, Xinlei Chen, Ning Zhang, Mengjiao Wang, Mohit Bansal, Tamara
L. Berg, Licheng Yu
- Abstract要約: 共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
- 参考スコア(独自算出の注目度): 117.15862403330121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dual encoders and cross encoders have been widely used for image-text
retrieval. Between the two, the dual encoder encodes the image and text
independently followed by a dot product, while the cross encoder jointly feeds
image and text as the input and performs dense multi-modal fusion. These two
architectures are typically modeled separately without interaction. In this
work, we propose LoopITR, which combines them in the same network for joint
learning. Specifically, we let the dual encoder provide hard negatives to the
cross encoder, and use the more discriminative cross encoder to distill its
predictions back to the dual encoder. Both steps are efficiently performed
together in the same model. Our work centers on empirical analyses of this
combined architecture, putting the main focus on the design of the distillation
objective. Our experimental results highlight the benefits of training the two
encoders in the same network, and demonstrate that distillation can be quite
effective with just a few hard negative examples. Experiments on two standard
datasets (Flickr30K and COCO) show our approach achieves state-of-the-art dual
encoder performance when compared with approaches using a similar amount of
data.
- Abstract(参考訳): デュアルエンコーダとクロスエンコーダは画像テキスト検索に広く利用されている。
この2つの間、デュアルエンコーダは、画像とテキストを独立にドット積で符号化し、クロスエンコーダは、画像とテキストを入力として共同供給し、密集したマルチモーダル融合を行う。
これらの2つのアーキテクチャは通常、相互作用なしで個別にモデル化される。
そこで本研究では,共学学習のために同じネットワークで組み合わせたloopitrを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
どちらのステップも同じモデルで効率的に実行される。
本研究は, この組み合わせアーキテクチャの実証分析を中心とし, 蒸留目標の設計に重点を置いている。
実験の結果、同一ネットワーク上で2つのエンコーダをトレーニングする利点を強調し、蒸留が非常に効果的であることを示す。
2つの標準データセット(Flickr30KとCOCO)で実験したところ、同様の量のデータを用いたアプローチと比較して、最先端のデュアルエンコーダの性能が得られた。
関連論文リスト
- How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval? [99.87554379608224]
クロスエンコーダのクロスモーダル類似度スコア分布は、二重エンコーダの結果がほぼ正常である間により集中する。
強陰性間の相対的な順序だけが有効な知識を伝達する一方、容易な負性間の順序情報はほとんど意味を持たない。
本研究では, コントラスト学習を用いて, 硬質負試料間の相対的な順序を模倣することを目的とした, コントラスト部分式蒸留法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:10:01Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Cross-stitching Text and Knowledge Graph Encoders for Distantly
Supervised Relation Extraction [30.274065305756057]
テキストと知識グラフ(KG)に見られる相補的情報を活用するために,遠隔教師付き関係抽出のためのバイエンコーダアーキテクチャを設計する
本稿では,テキストエンコーダとKGエンコーダのクロススティッチ機構による完全なインタラクションを実現するクロススティッチバイエンコーダを提案する。
論文 参考訳(メタデータ) (2022-11-02T19:01:26Z) - Distilled Dual-Encoder Model for Vision-Language Understanding [50.42062182895373]
本稿では,視覚言語理解タスクのためのデュアルエンコーダモデルをトレーニングするための多モードアテンション蒸留フレームワークを提案する。
プレトレーニングと微調整の両方にクロスモーダルアテンション蒸留を適用することで,さらなる改良が期待できることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:21:18Z) - Crosslink-Net: Double-branch Encoder Segmentation Network via Fusing
Vertical and Horizontal Convolutions [58.71117402626524]
医用画像分割のための新しいダブルブランチエンコーダアーキテクチャを提案する。
1)正方形畳み込みカーネルによる特徴の識別をさらに改善する必要があるため,非正方形および水平畳み込みカーネルの利用を提案する。
実験では,4つのデータセット上でのモデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-24T02:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。