Fugu-MT 論文翻訳(概要): Probing Visual Language Priors in VLMs

論文の概要: Probing Visual Language Priors in VLMs

arxiv url: http://arxiv.org/abs/2501.00569v3
Date: Tue, 18 Feb 2025 02:37:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 15:46:50.332938
Title: Probing Visual Language Priors in VLMs
Title（参考訳）: VLMでビジュアル言語を優先する
Authors: Tiange Luo, Ang Cao, Gunhee Lee, Justin Johnson, Honglak Lee,
Abstract要約: 我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。 ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
参考スコア（独自算出の注目度）: 51.016683265437536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite recent advances in Vision-Language Models (VLMs), they may over-rely on visual language priors existing in their training data rather than true visual reasoning. To investigate this, we introduce ViLP, a benchmark featuring deliberately out-of-distribution images synthesized via image generation models and out-of-distribution Q&A pairs. Each question in ViLP is coupled with three potential answers and three corresponding images: one that can be resolved by text priors alone and two that demand visual reasoning. Although, humans achieve near-perfect accuracy, modern VLMs falter; for instance, GPT-4 achieves only 66.17% on ViLP. To alleviate this, we propose a self-improving framework in which models generate new VQA data, then apply pixel-level and semantic corruptions to form "good-bad" image pairs for self-training. Our training objectives compel VLMs to focus more on the actual visual inputs, and we demonstrate their effectiveness in boosting the performance of open-source VLMs, including LLaVA-v1.5 and Cambrian.
Abstract（参考訳）: 近年のVLM(Vision-Language Models)の進歩にもかかわらず、真の視覚的推論ではなく、トレーニングデータに存在する視覚言語に重きを置いている可能性がある。そこで本研究では,画像生成モデルと分配外Q&Aペアを用いて意図的に生成した分布外画像を特徴付けるベンチマークであるViLPを紹介する。 ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが組み合わされている。ヒトはほぼ完全な精度を達成しているが、現代のVLMは、例えば、GPT-4はVLPで66.17%しか達成していない。そこで本研究では,モデルが新たなVQAデータを生成する自己改善フレームワークを提案する。 LLaVA-v1.5 や Cambrian など,オープンソースの VLM の性能向上に有効であることを示す。

関連論文リスト

Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T18:33:31Z)
Supervision-free Vision-Language Alignment [11.012355590697064]
SVP(Supervision-free Visual Projection)は、キュレートされたデータや好みのアノテーションに頼ることなく、視覚言語によるアライメントを強化するフレームワークである。我々は6つの重要な領域(キャプション、参照、視覚的質問応答、マルチタスク、幻覚制御、オブジェクトリコール)にまたがるアプローチを評価した。
論文参考訳（メタデータ） (2025-01-08T15:32:12Z)
How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文参考訳（メタデータ） (2024-08-07T17:59:40Z)
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-26T05:43:51Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
Visually-augmented pretrained language models for NLP tasks without images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文参考訳（メタデータ） (2022-12-15T16:13:25Z)
Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision [6.8582563015193]
弱教師付き視覚言語事前学習は、ほとんどあるいは全くペアのデータを持たないクロスモーダルアライメントを学習することを目的としている。オブジェクトタグと視覚的特徴をペアリングする最近の手法は、様々なV-L下流タスクで整列ペアで訓練されたモデルと同等のパフォーマンスを達成するのに役立っている。 Visual Vocabulary based Feature Hallucinator (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。 WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
論文参考訳（メタデータ） (2022-10-24T20:30:55Z)
Probing Cross-modal Semantics Alignment Capability from the Textual Perspective [52.52870614418373]
クロスモーダルなセマンティクスの調整は、視覚と言語の事前学習モデルの本質的な能力の1つであると主張されている。画像キャプションに基づく新しい探索手法を提案し,まずFjordモデルのモーダル間セマンティクスアライメントを実証的に研究する。
論文参考訳（メタデータ） (2022-10-18T02:55:58Z)
VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。 VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文参考訳（メタデータ） (2022-08-19T14:39:18Z)
VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文参考訳（メタデータ） (2022-05-23T17:55:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。