論文の概要: Probing Visual Language Priors in VLMs
- arxiv url: http://arxiv.org/abs/2501.00569v3
- Date: Tue, 18 Feb 2025 02:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 10:42:29.170592
- Title: Probing Visual Language Priors in VLMs
- Title(参考訳): VLMでビジュアル言語を優先する
- Authors: Tiange Luo, Ang Cao, Gunhee Lee, Justin Johnson, Honglak Lee,
- Abstract要約: 我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.016683265437536
- License:
- Abstract: Despite recent advances in Vision-Language Models (VLMs), they may over-rely on visual language priors existing in their training data rather than true visual reasoning. To investigate this, we introduce ViLP, a benchmark featuring deliberately out-of-distribution images synthesized via image generation models and out-of-distribution Q&A pairs. Each question in ViLP is coupled with three potential answers and three corresponding images: one that can be resolved by text priors alone and two that demand visual reasoning. Although, humans achieve near-perfect accuracy, modern VLMs falter; for instance, GPT-4 achieves only 66.17% on ViLP. To alleviate this, we propose a self-improving framework in which models generate new VQA data, then apply pixel-level and semantic corruptions to form "good-bad" image pairs for self-training. Our training objectives compel VLMs to focus more on the actual visual inputs, and we demonstrate their effectiveness in boosting the performance of open-source VLMs, including LLaVA-v1.5 and Cambrian.
- Abstract(参考訳): 近年のVLM(Vision-Language Models)の進歩にもかかわらず、真の視覚的推論ではなく、トレーニングデータに存在する視覚言語に重きを置いている可能性がある。
そこで本研究では,画像生成モデルと分配外Q&Aペアを用いて意図的に生成した分布外画像を特徴付けるベンチマークであるViLPを紹介する。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが組み合わされている。
ヒトはほぼ完全な精度を達成しているが、現代のVLMは、例えば、GPT-4はVLPで66.17%しか達成していない。
そこで本研究では,モデルが新たなVQAデータを生成する自己改善フレームワークを提案する。
LLaVA-v1.5 や Cambrian など,オープンソースの VLM の性能向上に有効であることを示す。
関連論文リスト
- Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - CAVL: Learning Contrastive and Adaptive Representations of Vision and
Language [10.57079240576682]
視覚的および言語的事前学習は、視覚と言語表現を一緒に学習することを目的としている。
現在の事前訓練されたモデルでは、下流のタスクに転送する際、微調整のために多くの計算資源を必要とする傾向にある。
我々は、視覚と言語、すなわちCAVLのコントラスト表現と適応表現の学習に、シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:54:03Z) - Learning by Hallucinating: Vision-Language Pre-training with Weak
Supervision [6.8582563015193]
弱教師付き視覚言語事前学習は、ほとんどあるいは全くペアのデータを持たないクロスモーダルアライメントを学習することを目的としている。
オブジェクトタグと視覚的特徴をペアリングする最近の手法は、様々なV-L下流タスクで整列ペアで訓練されたモデルと同等のパフォーマンスを達成するのに役立っている。
Visual Vocabulary based Feature Hallucinator (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。
WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-10-24T20:30:55Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。