Fugu-MT 論文翻訳(概要): Distilled Dual-Encoder Model for Vision-Language Understanding

論文の概要: Distilled Dual-Encoder Model for Vision-Language Understanding

arxiv url: http://arxiv.org/abs/2112.08723v1
Date: Thu, 16 Dec 2021 09:21:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-17 14:31:05.026481
Title: Distilled Dual-Encoder Model for Vision-Language Understanding
Title（参考訳）: 視覚言語理解のための蒸留デュアルエンコーダモデル
Authors: Zekun Wang, Wenhui Wang, Haichao Zhu, Ming Liu, Bing Qin, Furu Wei
Abstract要約: 本稿では,視覚言語理解タスクのためのデュアルエンコーダモデルをトレーニングするための多モードアテンション蒸留フレームワークを提案する。プレトレーニングと微調整の両方にクロスモーダルアテンション蒸留を適用することで,さらなる改良が期待できることを示す。
参考スコア（独自算出の注目度）: 50.42062182895373
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a cross-modal attention distillation framework to train a dual-encoder model for vision-language understanding tasks, such as visual reasoning and visual question answering. Dual-encoder models have a faster inference speed than fusion-encoder models and enable the pre-computation of images and text during inference. However, the shallow interaction module used in dual-encoder models is insufficient to handle complex vision-language understanding tasks. In order to learn deep interactions of images and text, we introduce cross-modal attention distillation, which uses the image-to-text and text-to-image attention distributions of a fusion-encoder model to guide the training of our dual-encoder model. In addition, we show that applying the cross-modal attention distillation for both pre-training and fine-tuning stages achieves further improvements. Experimental results demonstrate that the distilled dual-encoder model achieves competitive performance for visual reasoning, visual entailment and visual question answering tasks while enjoying a much faster inference speed than fusion-encoder models. Our code and models will be publicly available at https://github.com/kugwzk/Distilled-DualEncoder.
Abstract（参考訳）: 視覚言語理解タスク(視覚推論や視覚質問応答など)のためのデュアルエンコーダモデルを訓練するためのクロスモーダル注意蒸留フレームワークを提案する。デュアルエンコーダモデルはfusion-encoderモデルよりも高速な推論速度を持ち、推論中に画像とテキストの事前計算を可能にする。しかし、デュアルエンコーダモデルで使われる浅い相互作用モジュールは、複雑な視覚言語理解タスクを扱うには不十分である。画像とテキストの深い相互作用を学ぶために,融合エンコーダモデルの画像からテキストへの注意分布とテキストから画像への注意分布を用いて,デュアルエンコーダモデルのトレーニングを指導するクロスモーダルアテンション蒸留法を提案する。また,前訓練段階と微調整段階の両方にクロスモーダル注意蒸留を適用することにより,さらなる改善が得られた。実験の結果, 蒸留二重エンコーダモデルは, fusion-encoderモデルよりもはるかに高速な推論速度を享受しながら, 視覚的推論, ビジュアルエンテーメント, 視覚的質問応答タスクにおいて, 競合性能が得られることがわかった。私たちのコードとモデルはhttps://github.com/kugwzk/Distilled-DualEncoder.comで公開されます。

関連論文リスト

SPENCER: Self-Adaptive Model Distillation for Efficient Code Retrieval [46.194566677039525]
本研究では,効率の良いCodE検索のための自己AdaPtive Model Distillationを採用したフレームワークであるSPENCERを提案する。両エンコーダとクロスエンコーダの組み合わせは,コード検索用のみのデュアルエンコーダベースモデルと比較して,全体的な性能を向上することを示す。
論文参考訳（メタデータ） (2025-08-01T11:39:32Z)
Show-o2: Improved Native Unified Multimodal Models [21.78513101265258]
Show-o2は、自動回帰モデリングとフローマッチングを利用するネイティブ統合マルチモーダルモデルである。 3次元因果変分オートエンコーダ空間上に構築され、空間的(時間的)融合の二重経路によって統一された視覚表現が構成される。
論文参考訳（メタデータ） (2025-06-18T15:39:15Z)
One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文参考訳（メタデータ） (2025-05-28T04:23:22Z)
Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2025-02-06T12:17:35Z)
Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文参考訳（メタデータ） (2024-11-21T18:31:25Z)
Improving Multi-modal Large Language Model through Boosting Vision Capabilities [54.344077285545005]
視覚言語モデルを強化するための視覚理解能力の改善に注力する。マルチモーダル言語モデルである textbfArcana を提案する。
論文参考訳（メタデータ） (2024-10-17T16:36:38Z)
FLIER: Few-shot Language Image Models Embedded with Latent Representations [2.443383032451177]
画像認識のための潜在表現(FLIER)を組み込んだFew-shot Language Image Model。まず、GPT-3からのテキスト入力で、安定拡散による画像とそれに対応する潜在表現を生成する。潜在表現を「モデル理解可能なピクセル」として、2つの畳み込み層を持つ柔軟な畳み込みニューラルネットワークを導入し、潜り込みエンコーダとする。
論文参考訳（メタデータ） (2024-10-10T06:27:46Z)
Triple-View Knowledge Distillation for Semi-Supervised Semantic Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文参考訳（メタデータ） (2023-09-22T01:02:21Z)
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文参考訳（メタデータ） (2023-03-29T16:42:30Z)
LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文参考訳（メタデータ） (2022-03-10T16:41:12Z)
Toward Interpretability of Dual-Encoder Models for Dialogue Response Suggestions [18.117115200484708]
本稿では、2つのエンコーダから抽出した単語レベルの特徴の上位にアテンション機構を含む注意型二重エンコーダモデルを提案する。我々は、重要でない単語と望ましいラベルの相互情報を最小化するために、新しい正規化損失を設計する。実験では、Recall@1の精度と可視性の観点から、提案モデルの有効性を示す。
論文参考訳（メタデータ） (2020-03-02T21:26:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。