Fugu-MT 論文翻訳(概要): Vision Language Models are Biased

論文の概要: Vision Language Models are Biased

arxiv url: http://arxiv.org/abs/2505.23941v1
Date: Thu, 29 May 2025 18:47:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.628114
Title: Vision Language Models are Biased
Title（参考訳）: ビジョン言語モデルが採用される
Authors: An Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim,
Abstract要約: 大規模言語モデル(LLM)は、ダウンストリームタスクにおいて、インターネットから大量の事前知識を記憶している。一般的な主題に関する知識が視覚言語モデル(VLM)の標準的視覚的タスクにおける精度をいかに損なうかを検証する。
参考スコア（独自算出の注目度）: 2.589765893447591
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) memorize a vast amount of prior knowledge from the Internet that help them on downstream tasks but also may notoriously sway their outputs towards wrong or biased answers. In this work, we test how the knowledge about popular subjects hurt the accuracy of vision language models (VLMs) on standard, objective visual tasks of counting and identification. We find that state-of-the-art VLMs are strongly biased (e.g, unable to recognize a fourth stripe has been added to a 3-stripe Adidas logo) scoring an average of 17.05% accuracy in counting (e.g., counting stripes in an Adidas-like logo) across 7 diverse domains from animals, logos, chess, board games, optical illusions, to patterned grids. Insert text (e.g., "Adidas") describing the subject name into the counterfactual image further decreases VLM accuracy. The biases in VLMs are so strong that instructing them to double-check their results or rely exclusively on image details to answer improves counting accuracy by only +2 points, on average. Our work presents an interesting failure mode in VLMs and an automated framework for testing VLM biases. Code and data are available at: vlmsarebiased.github.io.
Abstract（参考訳）: 大規模な言語モデル(LLM)は、ダウンストリームタスクでの作業を支援するインターネットからの大量の事前知識を記憶します。本研究では,一般的な主題に関する知識が視覚言語モデル(VLM)の標準的,客観的な視覚的タスクにおける精度をいかに損なうかを検証する。最先端のVLMは、動物、ロゴ、チェス、ボードゲーム、光学イリュージョン、パターングリッドから7つの異なる領域にまたがる、平均17.05%の精度(例えば、アディダス風のロゴにストライプを数えるなど)で、強くバイアスを受けている(例えば、3ストリップのアディダスロゴに第4のストライプが追加されていると認識できない)。被写体名を表すインサートテキスト(例:「アディダス」)は、さらにVLMの精度を低下させる。 VLMのバイアスは非常に強く、結果の二重チェックを指示したり、回答のために画像の詳細のみを頼りにすることで、平均+2ポイントの精度が向上する。我々の研究は、VLMに興味深い障害モードを示し、VLMバイアスをテストするための自動化フレームワークを提供する。コードとデータは、vlmsarebiased.github.ioで入手できる。

関連論文リスト

Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。 VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文参考訳（メタデータ） (2025-06-09T17:59:54Z)
VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models [23.329280888159744]
本稿では、視覚言語モデル(VLM)のバイアスを評価するために、30M以上の画像を持つ大規模VQAベンチマークであるVIGNETTEを紹介する。我々は、VLMが文脈的設定におけるアイデンティティをどう解釈するかを評価し、モデルがどのように特性と能力の仮定を作成し、差別のパターンを示すかを明らかにする。我々の発見は微妙で多面的で驚くべきステレオタイプパターンを明らかにし、VLMが入力から社会的意味をどう構築するかについての洞察を提供する。
論文参考訳（メタデータ） (2025-05-28T22:00:30Z)
Can Vision-Language Models Evaluate Handwritten Math? [17.350707580013054]
FERMATは、手書きコンテンツのエラーを検出し、ローカライズし、修正するVision-Language Modelsの能力を評価するために設計されたベンチマークである。我々は、エラー検出、ローカライゼーション、修正の3つのタスクにまたがる9つのVLMをベンチマークする。 Gemini-1.5-Proは誤り訂正率が最も高い。
論文参考訳（メタデータ） (2025-01-13T11:52:55Z)
Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。 ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-31T17:54:29Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文参考訳（メタデータ） (2024-08-07T17:59:40Z)
Vision language models are blind: Failing to translate detailed visual features into words [1.2499537119440245]
視覚能力を持つ大規模言語モデル(VLM)は、人間にとって容易な低レベルの視覚タスクに苦労する。 BlindTestでは、4つの最先端VLMが平均58.07%の精度しか示していない。クロード3.5ソンネットは77.84%の精度で最高の成績を収めている。
論文参考訳（メタデータ） (2024-07-09T06:20:17Z)
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-26T05:43:51Z)
The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文参考訳（メタデータ） (2024-01-23T01:25:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。