論文の概要: Distilled Dual-Encoder Model for Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2112.08723v1
- Date: Thu, 16 Dec 2021 09:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:31:05.026481
- Title: Distilled Dual-Encoder Model for Vision-Language Understanding
- Title(参考訳): 視覚言語理解のための蒸留デュアルエンコーダモデル
- Authors: Zekun Wang, Wenhui Wang, Haichao Zhu, Ming Liu, Bing Qin, Furu Wei
- Abstract要約: 本稿では,視覚言語理解タスクのためのデュアルエンコーダモデルをトレーニングするための多モードアテンション蒸留フレームワークを提案する。
プレトレーニングと微調整の両方にクロスモーダルアテンション蒸留を適用することで,さらなる改良が期待できることを示す。
- 参考スコア(独自算出の注目度): 50.42062182895373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a cross-modal attention distillation framework to train a
dual-encoder model for vision-language understanding tasks, such as visual
reasoning and visual question answering. Dual-encoder models have a faster
inference speed than fusion-encoder models and enable the pre-computation of
images and text during inference. However, the shallow interaction module used
in dual-encoder models is insufficient to handle complex vision-language
understanding tasks. In order to learn deep interactions of images and text, we
introduce cross-modal attention distillation, which uses the image-to-text and
text-to-image attention distributions of a fusion-encoder model to guide the
training of our dual-encoder model. In addition, we show that applying the
cross-modal attention distillation for both pre-training and fine-tuning stages
achieves further improvements. Experimental results demonstrate that the
distilled dual-encoder model achieves competitive performance for visual
reasoning, visual entailment and visual question answering tasks while enjoying
a much faster inference speed than fusion-encoder models. Our code and models
will be publicly available at https://github.com/kugwzk/Distilled-DualEncoder.
- Abstract(参考訳): 視覚言語理解タスク(視覚推論や視覚質問応答など)のためのデュアルエンコーダモデルを訓練するためのクロスモーダル注意蒸留フレームワークを提案する。
デュアルエンコーダモデルはfusion-encoderモデルよりも高速な推論速度を持ち、推論中に画像とテキストの事前計算を可能にする。
しかし、デュアルエンコーダモデルで使われる浅い相互作用モジュールは、複雑な視覚言語理解タスクを扱うには不十分である。
画像とテキストの深い相互作用を学ぶために,融合エンコーダモデルの画像からテキストへの注意分布とテキストから画像への注意分布を用いて,デュアルエンコーダモデルのトレーニングを指導するクロスモーダルアテンション蒸留法を提案する。
また,前訓練段階と微調整段階の両方にクロスモーダル注意蒸留を適用することにより,さらなる改善が得られた。
実験の結果, 蒸留二重エンコーダモデルは, fusion-encoderモデルよりもはるかに高速な推論速度を享受しながら, 視覚的推論, ビジュアルエンテーメント, 視覚的質問応答タスクにおいて, 競合性能が得られることがわかった。
私たちのコードとモデルはhttps://github.com/kugwzk/Distilled-DualEncoder.comで公開されます。
関連論文リスト
- Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Improving Multi-modal Large Language Model through Boosting Vision Capabilities [54.344077285545005]
視覚言語モデルを強化するための視覚理解能力の改善に注力する。
マルチモーダル言語モデルである textbfArcana を提案する。
論文 参考訳(メタデータ) (2024-10-17T16:36:38Z) - FLIER: Few-shot Language Image Models Embedded with Latent Representations [2.443383032451177]
画像認識のための潜在表現(FLIER)を組み込んだFew-shot Language Image Model。
まず、GPT-3からのテキスト入力で、安定拡散による画像とそれに対応する潜在表現を生成する。
潜在表現を「モデル理解可能なピクセル」として、2つの畳み込み層を持つ柔軟な畳み込みニューラルネットワークを導入し、潜り込みエンコーダとする。
論文 参考訳(メタデータ) (2024-10-10T06:27:46Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - Toward Interpretability of Dual-Encoder Models for Dialogue Response
Suggestions [18.117115200484708]
本稿では、2つのエンコーダから抽出した単語レベルの特徴の上位にアテンション機構を含む注意型二重エンコーダモデルを提案する。
我々は、重要でない単語と望ましいラベルの相互情報を最小化するために、新しい正規化損失を設計する。
実験では、Recall@1の精度と可視性の観点から、提案モデルの有効性を示す。
論文 参考訳(メタデータ) (2020-03-02T21:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。