論文の概要: Vision Language Models are Biased
- arxiv url: http://arxiv.org/abs/2505.23941v1
- Date: Thu, 29 May 2025 18:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.628114
- Title: Vision Language Models are Biased
- Title(参考訳): ビジョン言語モデルが採用される
- Authors: An Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim,
- Abstract要約: 大規模言語モデル(LLM)は、ダウンストリームタスクにおいて、インターネットから大量の事前知識を記憶している。
一般的な主題に関する知識が視覚言語モデル(VLM)の標準的視覚的タスクにおける精度をいかに損なうかを検証する。
- 参考スコア(独自算出の注目度): 2.589765893447591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) memorize a vast amount of prior knowledge from the Internet that help them on downstream tasks but also may notoriously sway their outputs towards wrong or biased answers. In this work, we test how the knowledge about popular subjects hurt the accuracy of vision language models (VLMs) on standard, objective visual tasks of counting and identification. We find that state-of-the-art VLMs are strongly biased (e.g, unable to recognize a fourth stripe has been added to a 3-stripe Adidas logo) scoring an average of 17.05% accuracy in counting (e.g., counting stripes in an Adidas-like logo) across 7 diverse domains from animals, logos, chess, board games, optical illusions, to patterned grids. Insert text (e.g., "Adidas") describing the subject name into the counterfactual image further decreases VLM accuracy. The biases in VLMs are so strong that instructing them to double-check their results or rely exclusively on image details to answer improves counting accuracy by only +2 points, on average. Our work presents an interesting failure mode in VLMs and an automated framework for testing VLM biases. Code and data are available at: vlmsarebiased.github.io.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、ダウンストリームタスクでの作業を支援するインターネットからの大量の事前知識を記憶します。
本研究では,一般的な主題に関する知識が視覚言語モデル(VLM)の標準的,客観的な視覚的タスクにおける精度をいかに損なうかを検証する。
最先端のVLMは、動物、ロゴ、チェス、ボードゲーム、光学イリュージョン、パターングリッドから7つの異なる領域にまたがる、平均17.05%の精度(例えば、アディダス風のロゴにストライプを数えるなど)で、強くバイアスを受けている(例えば、3ストリップのアディダスロゴに第4のストライプが追加されていると認識できない)。
被写体名を表すインサートテキスト(例:「アディダス」)は、さらにVLMの精度を低下させる。
VLMのバイアスは非常に強く、結果の二重チェックを指示したり、回答のために画像の詳細のみを頼りにすることで、平均+2ポイントの精度が向上する。
我々の研究は、VLMに興味深い障害モードを示し、VLMバイアスをテストするための自動化フレームワークを提供する。
コードとデータは、vlmsarebiased.github.ioで入手できる。
関連論文リスト
- Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning [79.95774256444956]
ビジョンランゲージモデルにおける推論能力の欠如は研究談話の最前線に留まっている。
実用理論のレンズを用いて, 一般的なVLMのOpenCLIP, LLaVA-1.5, Molmoの基盤となるデータについて検討した。
論文 参考訳(メタデータ) (2026-02-26T18:54:06Z) - VRIQ: Benchmarking and Analyzing Visual-Reasoning IQ of VLMs [3.8552182839941884]
視覚言語モデル(VLM)の視覚的推論能力の評価と解析を目的とした新しいベンチマークであるVRIQを紹介する。
抽象的なパズルでは、性能は平均28%の精度でほぼランダムに保たれ、一方、自然タスクは45%の精度でより優れているが、それでも弱い結果が得られる。
分析の結果,障害の約56%は知覚単独で発生し,43%は知覚と推論の両方から発生し,1%は推論単独から発生していることがわかった。
論文 参考訳(メタデータ) (2026-02-05T07:07:27Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models [23.329280888159744]
本稿では、視覚言語モデル(VLM)のバイアスを評価するために、30M以上の画像を持つ大規模VQAベンチマークであるVIGNETTEを紹介する。
我々は、VLMが文脈的設定におけるアイデンティティをどう解釈するかを評価し、モデルがどのように特性と能力の仮定を作成し、差別のパターンを示すかを明らかにする。
我々の発見は微妙で多面的で驚くべきステレオタイプパターンを明らかにし、VLMが入力から社会的意味をどう構築するかについての洞察を提供する。
論文 参考訳(メタデータ) (2025-05-28T22:00:30Z) - Do You See Me : A Multidimensional Benchmark for Evaluating Visual Perception in Multimodal LLMs [9.951669153984708]
Do You See Me"は,1,758のイメージと2,612の質問を備えた,スケーラブルなベンチマークである。
人間は96.49%の精度を達成し、トップMLLMは50%以下である。
これは、真に堅牢な視覚知覚を持つMLLMに対して、緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-28T13:31:32Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [58.64449765678416]
思考のランドスケープ(LoT)を導入し、任意の複数選択データセット上で特定の推論手法で推論軌跡を検査する。
LoTは、強いモデルと弱いモデル、正解と誤解、および異なる推論タスクを区別する。
トラジェクトリの正しさを評価する軽量検証器にLoTを適用することで、この利点を実証する。
論文 参考訳(メタデータ) (2025-03-28T06:09:51Z) - Forgotten Polygons: Multimodal Large Language Models are Shape-Blind [55.65083505741497]
視覚言語タスクの性能は高いが、Multimodal Large Language Models (MLLM) は数学的な問題解決に苦戦している。
以上の結果から,正多角形同定において,トップモデルが50%未満の精度で達成されるなど,形状認識の根本的な欠点が明らかとなった。
図中の視覚的アノテーションを明示的に参照することにより、多段階の数学的推論を強化する。
論文 参考訳(メタデータ) (2025-02-21T22:04:09Z) - Can Vision-Language Models Evaluate Handwritten Math? [17.350707580013054]
FERMATは、手書きコンテンツのエラーを検出し、ローカライズし、修正するVision-Language Modelsの能力を評価するために設計されたベンチマークである。
我々は、エラー検出、ローカライゼーション、修正の3つのタスクにまたがる9つのVLMをベンチマークする。
Gemini-1.5-Proは誤り訂正率が最も高い。
論文 参考訳(メタデータ) (2025-01-13T11:52:55Z) - Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Vision language models are blind: Failing to translate detailed visual features into words [1.2499537119440245]
視覚能力を持つ大規模言語モデル(VLM)は、人間にとって容易な低レベルの視覚タスクに苦労する。
BlindTestでは、4つの最先端VLMが平均58.07%の精度しか示していない。
クロード3.5ソンネットは77.84%の精度で最高の成績を収めている。
論文 参考訳(メタデータ) (2024-07-09T06:20:17Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。
ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文 参考訳(メタデータ) (2024-01-23T01:25:00Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。