論文の概要: Vision Language Models are Biased
- arxiv url: http://arxiv.org/abs/2505.23941v1
- Date: Thu, 29 May 2025 18:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.628114
- Title: Vision Language Models are Biased
- Title(参考訳): ビジョン言語モデルが採用される
- Authors: An Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim,
- Abstract要約: 大規模言語モデル(LLM)は、ダウンストリームタスクにおいて、インターネットから大量の事前知識を記憶している。
一般的な主題に関する知識が視覚言語モデル(VLM)の標準的視覚的タスクにおける精度をいかに損なうかを検証する。
- 参考スコア(独自算出の注目度): 2.589765893447591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) memorize a vast amount of prior knowledge from the Internet that help them on downstream tasks but also may notoriously sway their outputs towards wrong or biased answers. In this work, we test how the knowledge about popular subjects hurt the accuracy of vision language models (VLMs) on standard, objective visual tasks of counting and identification. We find that state-of-the-art VLMs are strongly biased (e.g, unable to recognize a fourth stripe has been added to a 3-stripe Adidas logo) scoring an average of 17.05% accuracy in counting (e.g., counting stripes in an Adidas-like logo) across 7 diverse domains from animals, logos, chess, board games, optical illusions, to patterned grids. Insert text (e.g., "Adidas") describing the subject name into the counterfactual image further decreases VLM accuracy. The biases in VLMs are so strong that instructing them to double-check their results or rely exclusively on image details to answer improves counting accuracy by only +2 points, on average. Our work presents an interesting failure mode in VLMs and an automated framework for testing VLM biases. Code and data are available at: vlmsarebiased.github.io.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、ダウンストリームタスクでの作業を支援するインターネットからの大量の事前知識を記憶します。
本研究では,一般的な主題に関する知識が視覚言語モデル(VLM)の標準的,客観的な視覚的タスクにおける精度をいかに損なうかを検証する。
最先端のVLMは、動物、ロゴ、チェス、ボードゲーム、光学イリュージョン、パターングリッドから7つの異なる領域にまたがる、平均17.05%の精度(例えば、アディダス風のロゴにストライプを数えるなど)で、強くバイアスを受けている(例えば、3ストリップのアディダスロゴに第4のストライプが追加されていると認識できない)。
被写体名を表すインサートテキスト(例:「アディダス」)は、さらにVLMの精度を低下させる。
VLMのバイアスは非常に強く、結果の二重チェックを指示したり、回答のために画像の詳細のみを頼りにすることで、平均+2ポイントの精度が向上する。
我々の研究は、VLMに興味深い障害モードを示し、VLMバイアスをテストするための自動化フレームワークを提供する。
コードとデータは、vlmsarebiased.github.ioで入手できる。
関連論文リスト
- VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models [23.329280888159744]
本稿では、視覚言語モデル(VLM)のバイアスを評価するために、30M以上の画像を持つ大規模VQAベンチマークであるVIGNETTEを紹介する。
我々は、VLMが文脈的設定におけるアイデンティティをどう解釈するかを評価し、モデルがどのように特性と能力の仮定を作成し、差別のパターンを示すかを明らかにする。
我々の発見は微妙で多面的で驚くべきステレオタイプパターンを明らかにし、VLMが入力から社会的意味をどう構築するかについての洞察を提供する。
論文 参考訳(メタデータ) (2025-05-28T22:00:30Z) - Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Vision language models are blind: Failing to translate detailed visual features into words [1.2499537119440245]
視覚能力を持つ大規模言語モデル(VLM)は、人間にとって容易な低レベルの視覚タスクに苦労する。
BlindTestでは、4つの最先端VLMが平均58.07%の精度しか示していない。
クロード3.5ソンネットは77.84%の精度で最高の成績を収めている。
論文 参考訳(メタデータ) (2024-07-09T06:20:17Z) - The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。
ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文 参考訳(メタデータ) (2024-01-23T01:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。