論文の概要: Can We Talk Models Into Seeing the World Differently?
- arxiv url: http://arxiv.org/abs/2403.09193v2
- Date: Wed, 05 Mar 2025 19:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:56:48.245975
- Title: Can We Talk Models Into Seeing the World Differently?
- Title(参考訳): モデルで世界を見ることはできるのか?
- Authors: Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, M. Jehanzeb Mirza, Margret Keuper, Janis Keuper,
- Abstract要約: 視覚言語モデル(VLM)は、言語プロンプトを通じて視覚コンテンツにアクセスする直感的な方法を提供する。
我々は、特によく研究されている視覚のみの偏見(テクスチャ対形状偏見)と、グローバル情報に対する局所的な優位性)について検討する。
驚くべきことに、マルチモダリティだけで、モデルの振る舞いに重要な影響を与えることが証明されます。
- 参考スコア(独自算出の注目度): 29.55195958914328
- License:
- Abstract: Unlike traditional vision-only models, vision language models (VLMs) offer an intuitive way to access visual content through language prompting by combining a large language model (LLM) with a vision encoder. However, both the LLM and the vision encoder come with their own set of biases, cue preferences, and shortcuts, which have been rigorously studied in uni-modal models. A timely question is how such (potentially misaligned) biases and cue preferences behave under multi-modal fusion in VLMs. As a first step towards a better understanding, we investigate a particularly well-studied vision-only bias - the texture vs. shape bias and the dominance of local over global information. As expected, we find that VLMs inherit this bias to some extent from their vision encoders. Surprisingly, the multi-modality alone proves to have important effects on the model behavior, i.e., the joint training and the language querying change the way visual cues are processed. While this direct impact of language-informed training on a model's visual perception is intriguing, it raises further questions on our ability to actively steer a model's output so that its prediction is based on particular visual cues of the user's choice. Interestingly, VLMs have an inherent tendency to recognize objects based on shape information, which is different from what a plain vision encoder would do. Further active steering towards shape-based classifications through language prompts is however limited. In contrast, active VLM steering towards texture-based decisions through simple natural language prompts is often more successful. URL: https://github.com/paulgavrikov/vlm_shapebias
- Abstract(参考訳): 従来の視覚のみのモデルとは異なり、視覚言語モデル(VLM)は、大きな言語モデル(LLM)と視覚エンコーダを組み合わせることで、言語を介して視覚コンテンツにアクセスする直感的な方法を提供する。
しかし、LLMとビジョンエンコーダの両方には独自のバイアス、キューの好み、ショートカットがあり、これはユニモーダルモデルで厳密に研究されている。
タイムリーな疑問は、VLMにおけるそのような(潜在的に不一致な)バイアスやキューの選好がマルチモーダル融合の下でどのように振る舞うかである。
より理解を深める第一歩として、特によく研究されている視覚のみのバイアス、テクスチャ対形状バイアス、グローバル情報に対する局所的な優位性について検討する。
予想通り、VLMはビジョンエンコーダからある程度このバイアスを継承する。
驚くべきことに、マルチモダリティだけではモデル行動に重要な影響があることが証明されている。
この言語インフォームドトレーニングが、モデルの視覚的知覚に与える影響は興味深いが、モデルのアウトプットを積極的にコントロールし、その予測がユーザの選択した特定の視覚的手がかりに基づいているようにすることで、さらなる疑問が提起される。
興味深いことに、VLMは、通常の視覚エンコーダが行うものと異なる形状情報に基づいてオブジェクトを認識する傾向にある。
しかし、言語プロンプトによる形状に基づく分類に向けてのさらなる積極的な操舵は限定的である。
対照的に、単純な自然言語プロンプトによるテクスチャベースの意思決定に向けたアクティブなVLMのステアリングは、しばしばより成功している。
URL: https://github.com/paulgavrikov/vlm_shapebias
関連論文リスト
- MAVias: Mitigate any Visual Bias [19.140362626182856]
コンピュータビジョンモデルにおけるバイアスの緩和は、人工知能モデルの信頼性への重要なステップである。
我々は,基礎モデルを利用したオープンセットバイアス緩和手法であるMAViasを導入し,視覚属性と対象クラス間の刺激的な関連を見出す。
CelebA、Waterbirds、ImageNet、UrbanCarsなどの多様なデータセットに関する実験は、MAViasが視覚認識タスクの幅広いバイアスを効果的に検出し軽減し、最先端技術を上回ることを示しています。
論文 参考訳(メタデータ) (2024-12-09T16:23:51Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。
VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。
本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (2024-05-27T15:01:23Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Is Multimodal Vision Supervision Beneficial to Language? [2.216702991322677]
ビジョン(イメージとビデオ)事前トレーニングは、マルチモーダルタスクで最先端の結果を得た最近の一般的なパラダイムである。
我々は,これらのモデルのスタンドアロンテキストエンコーダの言語表現性能と,視覚監督を通して学習したテキストエンコーダの言語表現性能を比較した。
論文 参考訳(メタデータ) (2023-02-10T02:22:44Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。