論文の概要: Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2310.08577v1
- Date: Thu, 12 Oct 2023 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:13:35.515989
- Title: Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models
- Title(参考訳): 視覚言語モデルのスケーリングから視覚データ型理解は生まれない
- Authors: Vishaal Udandarao, Max F. Burg, Samuel Albanie, Matthias Bethge
- Abstract要約: データキュレーションに影響を及ぼす基本的な知覚スキルであるtextitVisual Data-Type Identification を新たに導入する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
以上の結果から,(i)モデルスケーリングだけでCLIPのような対照的に訓練されたモデルに対して限界ゲインが得られ,(ii)OpenFlamingoのような大規模自動回帰訓練VLMの性能低下が明らかとなった。
- 参考スコア(独自算出の注目度): 31.69213233651326
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in the development of vision-language models (VLMs) are
yielding remarkable success in recognizing visual semantic content, including
impressive instances of compositional image understanding. Here, we introduce
the novel task of \textit{Visual Data-Type Identification}, a basic perceptual
skill with implications for data curation (e.g., noisy data-removal from large
datasets, domain-specific retrieval) and autonomous vision (e.g.,
distinguishing changing weather conditions from camera lens staining). We
develop two datasets consisting of animal images altered across a diverse set
of 27 visual \textit{data-types}, spanning four broad categories. An extensive
zero-shot evaluation of 39 VLMs, ranging from 100M to 80B parameters, shows a
nuanced performance landscape. While VLMs are reasonably good at identifying
certain stylistic \textit{data-types}, such as cartoons and sketches, they
struggle with simpler \textit{data-types} arising from basic manipulations like
image rotations or additive noise. Our findings reveal that (i) model scaling
alone yields marginal gains for contrastively-trained models like CLIP, and
(ii) there is a pronounced drop in performance for the largest
auto-regressively trained VLMs like OpenFlamingo. This finding points to a
blind spot in current frontier VLMs: they excel in recognizing semantic content
but fail to acquire an understanding of visual \textit{data-types} through
scaling. By analyzing the pre-training distributions of these models and
incorporating \textit{data-type} information into the captions during
fine-tuning, we achieve a significant enhancement in performance. By exploring
this previously uncharted task, we aim to set the stage for further advancing
VLMs to equip them with visual data-type understanding. Code and datasets are
released \href{https://github.com/bethgelab/DataTypeIdentification}{here}.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の発展は、構成的イメージ理解の印象的な例を含む視覚意味コンテンツ認識において顕著な成功を収めている。
ここでは,データキュレーション(大規模データセットからのノイズデータ削除,ドメイン固有検索など)と自律視覚(例えば,カメラのレンズ染色と気象条件の変化を区別する)に意味を持つ基本的な知覚スキルである \textit{visual data-type identification} という新しいタスクを紹介する。
4つのカテゴリにわたる27のvisual \textit{data-types}の多様なセットにまたがる動物画像からなる2つのデータセットを開発した。
100Mから80Bのパラメータを含む39個のVLMの広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
VLMは漫画やスケッチのようなある種のスタイリスティックな \textit{data-types} を特定するのに適しているが、画像の回転や付加的なノイズといった基本的な操作から生じる単純な \textit{data-types} と競合する。
私たちの発見は
(i)モデルスケーリングだけでCLIPのような対照的に訓練されたモデルに対して限界ゲインが得られる。
(ii)openflamingoのような最大の自己回帰訓練vlmの性能低下が顕著である。
この発見は、現在のフロンティアのVLMにおいて盲点を示している: セマンティックコンテンツを認識するのに優れるが、スケーリングを通じて視覚的 \textit{data-types} を理解することに失敗する。
これらのモデルの事前学習分布を分析し、微調整中にキャプションに \textit{data-type} 情報を組み込むことで、性能を大幅に向上する。
これまでにない課題を探索することにより,視覚的データ型理解を付加するために,VLMをさらに前進させるステージを設定することを目指している。
コードとデータセットは \href{https://github.com/bethgelab/datatypeidentification}{here} としてリリースされる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [32.57246173437492]
本研究は,MLLMにおけるきめ細かい画像認識を強化するために,Img-Diffという新しいデータセットを提案する。
類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。
我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。
既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。
画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文 参考訳(メタデータ) (2024-05-28T17:57:06Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。