論文の概要: One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks
- arxiv url: http://arxiv.org/abs/2210.06379v1
- Date: Wed, 12 Oct 2022 16:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:44:12.211950
- Title: One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks
- Title(参考訳): すべてに合いません!
視覚および言語課題のための視覚エンコーダの相補性について
- Authors: Gregor Geigle, Chen Liu, Jonas Pfeiffer and Iryna Gurevych
- Abstract要約: 視覚と言語(V+L)タスクの解決を目的としたマルチモーダルモデル。主に特徴抽出器として視覚(VE)を使用する。
多くのVE(異なるアーキテクチャ)が公開されているが、下流のV+Lタスク用に設計されていない。
異なるVEに格納されている情報が相補的であるかどうか,すなわち,複数のVEの機能を備えたモデルを提供することで,目標タスクの性能を向上させることができるかを評価する。
- 参考スコア(独自算出の注目度): 61.99786848503047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multimodal models, aimed at solving Vision and Language (V+L) tasks,
predominantly repurpose Vision Encoders (VE) as feature extractors. While many
VEs -- of different architectures, trained on different data and objectives --
are publicly available, they are not designed for the downstream V+L tasks.
Nonetheless, most current work assumes that a \textit{single} pre-trained VE
can serve as a general-purpose encoder. In this work, we evaluate whether the
information stored within different VEs is complementary, i.e. if providing the
model with features from multiple VEs can improve the performance on a target
task. We exhaustively experiment with three popular VEs on six downstream V+L
tasks and analyze the attention and VE-dropout patterns. Our results and
analyses suggest that diverse VEs complement each other, resulting in improved
downstream V+L task performance, where the improvements are not due to simple
ensemble effects (i.e. the performance does not always improve when increasing
the number of encoders). We demonstrate that future VEs, which are not
\textit{repurposed}, but explicitly \textit{designed} for V+L tasks, have the
potential of improving performance on the target V+L tasks.
- Abstract(参考訳): ビジョン・アンド・ランゲージ(V+L)タスクの解決を目的とした現在のマルチモーダルモデルは、主に特徴抽出器として視覚エンコーダ(VE)を再利用している。
さまざまなアーキテクチャを持つ多くのveは、さまざまなデータと目的に基づいてトレーニングされているが、下流のv+lタスク用に設計されていない。
それでも、現在のほとんどの作品は、事前学習された ve が汎用エンコーダとして使えると仮定している。
本研究では,異なるVEに格納されている情報が相補的であるか否か,すなわち,複数のVEの機能を備えたモデルを提供することで,目標タスクの性能を向上できるかどうかを評価する。
6つのV+Lタスクで3つの人気VEを徹底的に実験し,注目パターンとVEドロップアウトパターンを解析した。
提案する結果と解析結果から,多様なveが相互補完し,結果として下流のv+lタスク性能が向上し,単純なアンサンブル効果による改善が得られない(エンコーダ数の増加による性能の向上が必ずしも改善されない)。
我々は, v+l タスクに対して明示的に \textit{designed} であるような将来の ve は,ターゲットとする v+l タスクのパフォーマンスを向上させる可能性を秘めている。
関連論文リスト
- Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - ViSTa Dataset: Do vision-language models understand sequential tasks? [6.039062076849557]
強化学習における報酬モデルとして視覚言語モデル(VLM)を使用することは、コスト削減と安全性の向上を約束する。
逐次タスクの視覚的理解を評価するためのデータセットであるViSTaを紹介する。
ViSTaは4000本以上のビデオと、仮想ホーム、Minecraft、および現実世界の環境におけるステップバイステップの説明で構成されている。
論文 参考訳(メタデータ) (2024-11-20T11:19:22Z) - Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。
高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。
LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文 参考訳(メタデータ) (2024-10-07T05:07:01Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding [33.33424214458285]
視覚言語モデル(VLM)は、様々な下流タスクで顕著な性能を示した。
しかし、属性やオブジェクト間の関係など、きめ細かい視覚言語概念を理解することは、依然として重要な課題である。
他のすべての面において一貫性を確保しつつ、特定の属性で異なる画像を合成するプログレッシブパイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-30T03:20:37Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。