論文の概要: One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks
- arxiv url: http://arxiv.org/abs/2210.06379v2
- Date: Thu, 8 Jun 2023 15:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 20:30:26.703036
- Title: One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks
- Title(参考訳): すべてに合いません!
視覚および言語課題のための視覚エンコーダの相補性について
- Authors: Gregor Geigle, Chen Cecilia Liu, Jonas Pfeiffer and Iryna Gurevych
- Abstract要約: マルチモーダルモデルはビジョン・アンド・ランゲージ(V+L)タスクの解決を目的としている。
現在の研究は、テキスタイルの事前訓練されたVEが汎用エンコーダとして機能すると仮定している。
本研究では,異なるVEに格納されている情報が相補的であるかどうかを,分析に焦点をあてる。
- 参考スコア(独自算出の注目度): 59.49639580525051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multimodal models, aimed at solving Vision and Language (V+L) tasks,
predominantly repurpose Vision Encoders (VE) as feature extractors. While many
VEs -- of different architectures, trained on different data and objectives --
are publicly available, they are not designed for the downstream V+L tasks.
Nonetheless, most current work assumes that a \textit{single} pre-trained VE
can serve as a general-purpose encoder. In this work, we focus on analysis and
aim to understand whether the information stored within different VEs is
complementary, i.e. if providing the model with features from multiple VEs can
improve the performance on a target task, and how they are combined. We
exhaustively experiment with three popular VEs on six downstream V+L tasks and
analyze the attention and VE-dropout patterns. Our analyses suggest that
diverse VEs complement each other, resulting in improved downstream V+L task
performance, where the improvements are not due to simple ensemble effects
(i.e. the performance does not always improve when increasing the number of
encoders). We demonstrate that future VEs, which are not \textit{repurposed},
but explicitly \textit{designed} for V+L tasks, have the potential of improving
performance on the target V+L tasks.
- Abstract(参考訳): ビジョン・アンド・ランゲージ(V+L)タスクの解決を目的とした現在のマルチモーダルモデルは、主に特徴抽出器として視覚エンコーダ(VE)を再利用している。
さまざまなアーキテクチャを持つ多くのveは、さまざまなデータと目的に基づいてトレーニングされているが、下流のv+lタスク用に設計されていない。
それでも、現在のほとんどの作品は、事前学習された ve が汎用エンコーダとして使えると仮定している。
本研究では,異なるVEに格納されている情報が相補的であるかどうか,すなわち,複数のVEの機能を備えたモデルを提供することで,対象タスクのパフォーマンスを向上し,どのように組み合わせられるかを明らかにすることを目的とした。
6つのV+Lタスクで3つの人気VEを徹底的に実験し,注目パターンとVEドロップアウトパターンを解析した。
解析の結果,多様なVEが相互に補完し,より単純なアンサンブル効果(エンコーダ数が増えると必ずしも性能が向上しない)により,下流のV+Lタスク性能が向上することが示唆された。
我々は, v+l タスクに対して明示的に \textit{designed} であるような将来の ve は,ターゲットとする v+l タスクのパフォーマンスを向上させる可能性を秘めている。
関連論文リスト
- ViSTa Dataset: Do vision-language models understand sequential tasks? [6.039062076849557]
強化学習における報酬モデルとして視覚言語モデル(VLM)を使用することは、コスト削減と安全性の向上を約束する。
逐次タスクの視覚的理解を評価するためのデータセットであるViSTaを紹介する。
ViSTaは4000本以上のビデオと、仮想ホーム、Minecraft、および現実世界の環境におけるステップバイステップの説明で構成されている。
論文 参考訳(メタデータ) (2024-11-20T11:19:22Z) - Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。
高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。
LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文 参考訳(メタデータ) (2024-10-07T05:07:01Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding [33.33424214458285]
視覚言語モデル(VLM)は、様々な下流タスクで顕著な性能を示した。
しかし、属性やオブジェクト間の関係など、きめ細かい視覚言語概念を理解することは、依然として重要な課題である。
他のすべての面において一貫性を確保しつつ、特定の属性で異なる画像を合成するプログレッシブパイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-30T03:20:37Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。