Fugu-MT 論文翻訳(概要): Examining Vision Language Models through Multi-dimensional Experiments with Vision and Text Features

論文の概要: Examining Vision Language Models through Multi-dimensional Experiments with Vision and Text Features

arxiv url: http://arxiv.org/abs/2509.08266v1
Date: Wed, 10 Sep 2025 03:49:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-11 15:16:52.301718
Title: Examining Vision Language Models through Multi-dimensional Experiments with Vision and Text Features
Title（参考訳）: 視覚・テキスト特徴を用いた多次元実験による視覚言語モデルの検討
Authors: Saurav Sengupta, Nazanin Moradinasab, Jiebei Liu, Donald E. Brown,
Abstract要約: 視覚言語モデル(VLM)は、画像の視覚的特性に関する質問に答えるために訓練中に学んだ固有のバイアスに依存する。本研究の目的は、視覚言語モデルがどのように変化するかを学習し、そのような変化を特徴付ける方法を探ることである。
参考スコア（独自算出の注目度）: 0.4934817254755008
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research on Vision Language Models (VLMs) suggests that they rely on inherent biases learned during training to respond to questions about visual properties of an image. These biases are exacerbated when VLMs are asked highly specific questions that require focusing on specific areas of the image. For example, a VLM tasked with counting stars on a modified American flag (e.g., with more than 50 stars) will often disregard the visual evidence and fail to answer accurately. We build upon this research and develop a multi-dimensional examination framework to systematically determine which characteristics of the input data, including both the image and the accompanying prompt, lead to such differences in performance. Using open-source VLMs, we further examine how attention values fluctuate with varying input parameters (e.g., image size, number of objects in the image, background color, prompt specificity). This research aims to learn how the behavior of vision language models changes and to explore methods for characterizing such changes. Our results suggest, among other things, that even minor modifications in image characteristics and prompt specificity can lead to large changes in how a VLM formulates its answer and, subsequently, its overall performance.
Abstract（参考訳）: 視覚言語モデル(VLM)に関する最近の研究は、画像の視覚特性に関する疑問に答えるために訓練中に学んだ固有のバイアスに依存することを示唆している。これらのバイアスは、VLMが画像の特定の領域に焦点をあてる必要のある、非常に具体的な質問を受けると悪化する。例えば、修正されたアメリカの国旗(例:50個以上の星)に星を数えることを担当するVLMは、しばしば視覚的証拠を無視し、正確に答えられなくなる。本研究を基盤として,入力データの特徴,画像と付随するプロンプトの両方を体系的に決定する多次元検査フレームワークを開発し,その性能の違いについて考察する。さらに、オープンソースのVLMを用いて、異なる入力パラメータ(例えば、画像サイズ、画像中のオブジェクト数、背景色、即時特異性)で注目値がどのように変動するかを検証した。本研究の目的は、視覚言語モデルがどのように変化するかを学習し、そのような変化を特徴付ける方法を探ることである。以上の結果から,画像特性の微妙な変化や迅速な特異性さえも,VLMの解の定式化に大きな変化をもたらすことが示唆された。

関連論文リスト

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。合成画像のプロシージャ生成を用いて視覚特性の制御を行う。この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文参考訳（メタデータ） (2025-06-05T12:43:10Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models [19.291697178628546]
ビジョン言語モデル(VLM)は、様々なベンチマークで有望な推論能力を示している。本研究では,VLMがどのようにイメージを知覚するかを調べるために,視線検査プロセスを提案する。
論文参考訳（メタデータ） (2024-09-23T07:15:29Z)
How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model? [2.3993515715868714]
本稿では,視覚言語モデル(VLM)に好適な画像分布を特定するための,新しい一般化可能な手法を提案する。これを異なる3次元オブジェクトのレンダリングタイプに適用することにより、複雑な構造の正確な解釈を必要とする様々な領域で有効性を示す。特殊なドメインにおけるベンチマークの欠如を解決するために,CAD関連視覚質問応答タスク上でVLMを評価するための新しいデータセットであるCAD-VQAを導入する。
論文参考訳（メタデータ） (2024-09-03T19:26:13Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。 VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文参考訳（メタデータ） (2023-11-29T17:54:22Z)
GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文参考訳（メタデータ） (2023-05-26T17:15:22Z)
Visually-augmented pretrained language models for NLP tasks without images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文参考訳（メタデータ） (2022-12-15T16:13:25Z)
VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。 VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文参考訳（メタデータ） (2022-08-19T14:39:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。