論文の概要: Probing Visual Language Priors in VLMs
- arxiv url: http://arxiv.org/abs/2501.00569v1
- Date: Tue, 31 Dec 2024 17:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:51.639306
- Title: Probing Visual Language Priors in VLMs
- Title(参考訳): VLMでビジュアル言語を優先する
- Authors: Tiange Luo, Ang Cao, Gunhee Lee, Justin Johnson, Honglak Lee,
- Abstract要約: このベンチマークでは、各質問に3つの潜在的な答えと3つの対応するイメージをペアリングする。
画像生成モデルを活用することで、テクスチャ、形状、概念の組み合わせ、幻覚要素、および証明に基づく文脈において、大きな変化が保証される。
モデルが新たなVQAペアと画像を生成し、ピクセルレベルとセマンティックな汚職を適用して、自己学習のための「良いバッド」イメージペアを生成する自己改善フレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.016683265437536
- License:
- Abstract: Despite recent advances in Vision-Language Models (VLMs), many still over-rely on visual language priors present in their training data rather than true visual reasoning. To examine the situation, we introduce ViLP, a visual question answering (VQA) benchmark that pairs each question with three potential answers and three corresponding images: one image whose answer can be inferred from text alone, and two images that demand visual reasoning. By leveraging image generative models, we ensure significant variation in texture, shape, conceptual combinations, hallucinated elements, and proverb-based contexts, making our benchmark images distinctly out-of-distribution. While humans achieve near-perfect accuracy, modern VLMs falter; for instance, GPT-4 achieves only 66.17% on ViLP. To alleviate this, we propose a self-improving framework in which models generate new VQA pairs and images, then apply pixel-level and semantic corruptions to form "good-bad" image pairs for self-training. Our training objectives compel VLMs to focus more on actual visual inputs and have demonstrated their effectiveness in enhancing the performance of open-source VLMs, including LLaVA-v1.5 and Cambrian.
- Abstract(参考訳): 近年のVLM(Vision-Language Models)の進歩にもかかわらず、多くは真の視覚的推論ではなく、トレーニングデータに存在する視覚言語に過度に頼っている。
この状況を調べるために,視覚的質問応答 (VQA) ベンチマークである ViLP を導入し,各質問を3つの潜在的な回答と対応する3つの画像とをペアリングする。
画像生成モデルを活用することで、テクスチャ、形状、概念の組み合わせ、幻覚的要素、および証明的コンテキストの顕著な変化が保証され、ベンチマーク画像は明らかに配布外となる。
ヒトがほぼ完全な精度を達成する一方で、現代のVLMは、例えば、GPT-4はVLPで66.17%しか達成していない。
そこで本研究では,新たなVQAペアと画像を生成する自己改善フレームワークを提案する。
LLaVA-v1.5 や Cambrian などのオープンソース VLM の性能向上に有効性を示した。
関連論文リスト
- Supervision-free Vision-Language Alignment [11.012355590697064]
SVP(Supervision-free Visual Projection)は、キュレートされたデータや好みのアノテーションに頼ることなく、視覚言語によるアライメントを強化するフレームワークである。
我々は6つの重要な領域(キャプション、参照、視覚的質問応答、マルチタスク、幻覚制御、オブジェクトリコール)にまたがるアプローチを評価した。
論文 参考訳(メタデータ) (2025-01-08T15:32:12Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Learning by Hallucinating: Vision-Language Pre-training with Weak
Supervision [6.8582563015193]
弱教師付き視覚言語事前学習は、ほとんどあるいは全くペアのデータを持たないクロスモーダルアライメントを学習することを目的としている。
オブジェクトタグと視覚的特徴をペアリングする最近の手法は、様々なV-L下流タスクで整列ペアで訓練されたモデルと同等のパフォーマンスを達成するのに役立っている。
Visual Vocabulary based Feature Hallucinator (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。
WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-10-24T20:30:55Z) - Probing Cross-modal Semantics Alignment Capability from the Textual
Perspective [52.52870614418373]
クロスモーダルなセマンティクスの調整は、視覚と言語の事前学習モデルの本質的な能力の1つであると主張されている。
画像キャプションに基づく新しい探索手法を提案し,まずFjordモデルのモーダル間セマンティクスアライメントを実証的に研究する。
論文 参考訳(メタデータ) (2022-10-18T02:55:58Z) - VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations [28.322824790738768]
Vision-Language Pretrainingモデルは、多くのモード間下流タスクを成功に導いた。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
自然言語処理をテストするためにCheckListにインスパイアされた我々は、新しいフレームワークであるVL-CheckListを利用する。
論文 参考訳(メタデータ) (2022-07-01T06:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。