論文の概要: One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks
- arxiv url: http://arxiv.org/abs/2210.06379v1
- Date: Wed, 12 Oct 2022 16:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:44:12.211950
- Title: One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks
- Title(参考訳): すべてに合いません!
視覚および言語課題のための視覚エンコーダの相補性について
- Authors: Gregor Geigle, Chen Liu, Jonas Pfeiffer and Iryna Gurevych
- Abstract要約: 視覚と言語(V+L)タスクの解決を目的としたマルチモーダルモデル。主に特徴抽出器として視覚(VE)を使用する。
多くのVE(異なるアーキテクチャ)が公開されているが、下流のV+Lタスク用に設計されていない。
異なるVEに格納されている情報が相補的であるかどうか,すなわち,複数のVEの機能を備えたモデルを提供することで,目標タスクの性能を向上させることができるかを評価する。
- 参考スコア(独自算出の注目度): 61.99786848503047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multimodal models, aimed at solving Vision and Language (V+L) tasks,
predominantly repurpose Vision Encoders (VE) as feature extractors. While many
VEs -- of different architectures, trained on different data and objectives --
are publicly available, they are not designed for the downstream V+L tasks.
Nonetheless, most current work assumes that a \textit{single} pre-trained VE
can serve as a general-purpose encoder. In this work, we evaluate whether the
information stored within different VEs is complementary, i.e. if providing the
model with features from multiple VEs can improve the performance on a target
task. We exhaustively experiment with three popular VEs on six downstream V+L
tasks and analyze the attention and VE-dropout patterns. Our results and
analyses suggest that diverse VEs complement each other, resulting in improved
downstream V+L task performance, where the improvements are not due to simple
ensemble effects (i.e. the performance does not always improve when increasing
the number of encoders). We demonstrate that future VEs, which are not
\textit{repurposed}, but explicitly \textit{designed} for V+L tasks, have the
potential of improving performance on the target V+L tasks.
- Abstract(参考訳): ビジョン・アンド・ランゲージ(V+L)タスクの解決を目的とした現在のマルチモーダルモデルは、主に特徴抽出器として視覚エンコーダ(VE)を再利用している。
さまざまなアーキテクチャを持つ多くのveは、さまざまなデータと目的に基づいてトレーニングされているが、下流のv+lタスク用に設計されていない。
それでも、現在のほとんどの作品は、事前学習された ve が汎用エンコーダとして使えると仮定している。
本研究では,異なるVEに格納されている情報が相補的であるか否か,すなわち,複数のVEの機能を備えたモデルを提供することで,目標タスクの性能を向上できるかどうかを評価する。
6つのV+Lタスクで3つの人気VEを徹底的に実験し,注目パターンとVEドロップアウトパターンを解析した。
提案する結果と解析結果から,多様なveが相互補完し,結果として下流のv+lタスク性能が向上し,単純なアンサンブル効果による改善が得られない(エンコーダ数の増加による性能の向上が必ずしも改善されない)。
我々は, v+l タスクに対して明示的に \textit{designed} であるような将来の ve は,ターゲットとする v+l タスクのパフォーマンスを向上させる可能性を秘めている。
関連論文リスト
- Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language
Understanding [35.76250681825593]
テキストと視覚の両方の観点から視覚言語モデル(VLM)を評価することの重要性を強調した。
他のすべての面において一貫性を確保しつつ、特定の属性で異なる画像を合成するプログレッシブパイプラインを導入する。
ゼロショット性能を損なうことなくSPECの大幅な改善を実現し,精細な理解でVLMを最適化する手法を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:20:37Z) - A Continual Learning Paradigm for Non-differentiable Visual Programming
Frameworks on Visual Reasoning Tasks [51.053901491986025]
様々な視覚的推論タスクにまたがって,VisProgの継続的学習パラダイムを提案する。
我々のCLVPは、よく訓練されたタスク固有モデルの視覚的サブモジュールに、段階的に、そして、アンチフォッゲッティングな方法で蒸留する。
論文 参考訳(メタデータ) (2023-09-18T14:28:47Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。