論文の概要: Are Vision Language Models Texture or Shape Biased and Can We Steer Them?
- arxiv url: http://arxiv.org/abs/2403.09193v1
- Date: Thu, 14 Mar 2024 09:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:16:56.402340
- Title: Are Vision Language Models Texture or Shape Biased and Can We Steer Them?
- Title(参考訳): 視覚言語モデルはテクスチャーか形状か?
- Authors: Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanzeb Mirza, Margret Keuper, Janis Keuper,
- Abstract要約: 視覚言語モデル(VLM)におけるテクスチャと形状バイアスについて検討する。
VLMは、視覚エンコーダよりも形状バイアスが強く、視覚バイアスはテキストによってある程度変調されていることが示される。
例えば、偏見を49%から72%に抑えることができるのです。
- 参考スコア(独自算出の注目度): 29.837399598519557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision language models (VLMs) have drastically changed the computer vision model landscape in only a few years, opening an exciting array of new applications from zero-shot image classification, over to image captioning, and visual question answering. Unlike pure vision models, they offer an intuitive way to access visual content through language prompting. The wide applicability of such models encourages us to ask whether they also align with human vision - specifically, how far they adopt human-induced visual biases through multimodal fusion, or whether they simply inherit biases from pure vision models. One important visual bias is the texture vs. shape bias, or the dominance of local over global information. In this paper, we study this bias in a wide range of popular VLMs. Interestingly, we find that VLMs are often more shape-biased than their vision encoders, indicating that visual biases are modulated to some extent through text in multimodal models. If text does indeed influence visual biases, this suggests that we may be able to steer visual biases not just through visual input but also through language: a hypothesis that we confirm through extensive experiments. For instance, we are able to steer shape bias from as low as 49% to as high as 72% through prompting alone. For now, the strong human bias towards shape (96%) remains out of reach for all tested VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)は、コンピュータビジョンモデルのランドスケープをわずか数年で劇的に変化させ、ゼロショット画像分類から画像キャプション、視覚的質問応答に至るまで、新しいアプリケーションのエキサイティングな配列を開いた。
純粋な視覚モデルとは異なり、言語プロンプトを通じて視覚コンテンツにアクセスする直感的な方法を提供する。
このようなモデルの広範な適用性は、人間のビジョンとも一致しているか、具体的には、マルチモーダル融合による人間の視覚バイアスをどのように採用するか、純粋な視覚モデルから単にバイアスを継承するかを問うのに役立つ。
重要な視覚バイアスの1つは、テクスチャ対形状バイアス、またはグローバル情報に対する局所的な優位性である。
本稿では,このバイアスについて,広く普及しているVLMを用いて検討する。
興味深いことに、VLMは視覚エンコーダよりも形状バイアスが強く、視覚バイアスはマルチモーダルモデルのテキストによってある程度変調されていることが示される。
もしテキストが本当に視覚バイアスに影響を与えているなら、このことは視覚入力だけでなく言語を通して視覚バイアスを操ることができるかもしれないことを示唆している。
例えば、偏見を49%から72%に抑えることができるのです。
今のところ、形状に対する強い人間の偏見(96%)は、全ての試験されたVLMには達していない。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - $\texttt{ModSCAN}$: Measuring Stereotypical Bias in Large Vision-Language Models from Vision and Language Modalities [30.960327354387054]
大規模視覚言語モデル(LVLM)は、様々な分野で急速に開発され、広く利用されているが、モデルにおける(潜在的)ステレオタイプバイアスは、ほとんど探索されていない。
我々は、先駆的な測定フレームワークである$textttModSCAN$を、LVLM内のステレオタイプバイアスである$underlineSCAN$に提示する。
論文 参考訳(メタデータ) (2024-10-09T15:07:05Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。
VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。
本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (2024-05-27T15:01:23Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Is Multimodal Vision Supervision Beneficial to Language? [2.216702991322677]
ビジョン(イメージとビデオ)事前トレーニングは、マルチモーダルタスクで最先端の結果を得た最近の一般的なパラダイムである。
我々は,これらのモデルのスタンドアロンテキストエンコーダの言語表現性能と,視覚監督を通して学習したテキストエンコーダの言語表現性能を比較した。
論文 参考訳(メタデータ) (2023-02-10T02:22:44Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。