Fugu-MT 論文翻訳(概要): Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models

論文の概要: Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models

arxiv url: http://arxiv.org/abs/2310.08577v3
Date: Wed, 6 Dec 2023 12:34:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 18:16:26.068403
Title: Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models
Title（参考訳）: 視覚言語モデルのスケーリングから視覚データ型理解は生まれない
Authors: Vishaal Udandarao, Max F. Burg, Samuel Albanie, Matthias Bethge
Abstract要約: 視覚データ型識別の新しい課題について紹介する。 39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
参考スコア（独自算出の注目度）: 31.69213233651326
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advances in the development of vision-language models (VLMs) are yielding remarkable success in recognizing visual semantic content, including impressive instances of compositional image understanding. Here, we introduce the novel task of Visual Data-Type Identification, a basic perceptual skill with implications for data curation (e.g., noisy data-removal from large datasets, domain-specific retrieval) and autonomous vision (e.g., distinguishing changing weather conditions from camera lens staining). We develop two datasets consisting of animal images altered across a diverse set of 27 visual data-types, spanning four broad categories. An extensive zero-shot evaluation of 39 VLMs, ranging from 100M to 80B parameters, shows a nuanced performance landscape. While VLMs are reasonably good at identifying certain stylistic \textit{data-types}, such as cartoons and sketches, they struggle with simpler data-types arising from basic manipulations like image rotations or additive noise. Our findings reveal that (i) model scaling alone yields marginal gains for contrastively-trained models like CLIP, and (ii) there is a pronounced drop in performance for the largest auto-regressively trained VLMs like OpenFlamingo. This finding points to a blind spot in current frontier VLMs: they excel in recognizing semantic content but fail to acquire an understanding of visual data-types through scaling. By analyzing the pre-training distributions of these models and incorporating data-type information into the captions during fine-tuning, we achieve a significant enhancement in performance. By exploring this previously uncharted task, we aim to set the stage for further advancing VLMs to equip them with visual data-type understanding. Code and datasets are released at https://github.com/bethgelab/DataTypeIdentification.
Abstract（参考訳）: 近年の視覚言語モデル(VLM)の発展は、構成的イメージ理解の印象的な例を含む視覚意味コンテンツ認識において顕著な成功を収めている。本稿では,視覚データ型識別,データキュレーション(大規模データセットからのノイズデータ削除,ドメイン固有検索など)と自律視覚(例えば,カメラのレンズ染色と気象条件の変化を区別する)の新たな課題を紹介する。動物画像からなる2つのデータセットを27種類の視覚的データタイプに分けて開発し,4つのカテゴリにまたがった。 100Mから80Bのパラメータを含む39個のVLMの広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。 VLMは漫画やスケッチなど、ある種のスタイリスティックな \textit{data-types} を特定するのに適しているが、画像の回転や付加的なノイズといった基本的な操作から生じる単純なデータタイプに苦労する。私たちの発見は (i)モデルスケーリングだけでCLIPのような対照的に訓練されたモデルに対して限界ゲインが得られる。 (ii)openflamingoのような最大の自己回帰訓練vlmの性能低下が顕著である。この発見は、現在のフロンティアのVLMにおいて盲点であることを示している。セマンティックなコンテンツを認識するのに優れるが、スケーリングを通じて視覚的なデータ型を理解することに失敗する。これらのモデルの事前学習分布を解析し、微調整中のキャプションにデータ型情報を組み込むことにより、性能を大幅に向上させる。これまでにない課題を探索することにより,視覚的データ型理解を付加するために,VLMをさらに前進させるステージを設定することを目指している。コードとデータセットはhttps://github.com/bethgelab/DataTypeIdentificationで公開される。

関連論文リスト

Same or Not? Enhancing Visual Perception in Vision-Language Models [6.971464056247448]
視覚言語モデル(VLM)は、広い視覚的理解において優れているが、粗い粒度のままであり、視覚バイアスを示し、微妙な視覚的詳細を見逃す。そこで我々は,VLMの知覚能力を高めるために,新たなトレーニングコーパスとタスクを導入する。 TWINは561,000のイメージペアクエリの大規模なデータセットで、2つの視覚的に類似したイメージが同じオブジェクトを描いているかをモデルで判断する。
論文参考訳（メタデータ） (2025-12-29T16:43:47Z)
Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文参考訳（メタデータ） (2025-11-21T21:36:48Z)
No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-23T12:54:52Z)
HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models [15.877790469608662]
画像とテキストのペアデータの品質を向上させるために,LVLM駆動型データ精錬パイプラインを導入する。否定的な記述と短いタグを組み込むことで、従来のコントラスト学習を拡張する訓練パラダイムを提案する。提案手法は, ゼロショット分類, クロスモーダル検索, きめ細かな視覚理解タスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-07-30T07:21:36Z)
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文参考訳（メタデータ） (2025-02-19T18:05:42Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [32.57246173437492]
本研究は,MLLMにおけるきめ細かい画像認識を強化するために,Img-Diffという新しいデータセットを提案する。類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文参考訳（メタデータ） (2024-08-07T17:59:40Z)
VisMin: Visual Minimal-Change Understanding [7.226130826257802]
Visual Minimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。 VisMinは、2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。
論文参考訳（メタデータ） (2024-07-23T18:10:43Z)
BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。近年の研究では、VLMは幻覚に弱いことが示されている。我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文参考訳（メタデータ） (2024-07-18T12:11:12Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文参考訳（メタデータ） (2024-05-28T17:57:06Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Pushing Boundaries: Exploring Zero Shot Object Classification with Large Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文参考訳（メタデータ） (2023-12-30T03:19:54Z)
Diversify Your Vision Datasets with Automatic Diffusion-Based Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文参考訳（メタデータ） (2023-05-25T17:43:05Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。