論文の概要: Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts
- arxiv url: http://arxiv.org/abs/2505.17127v1
- Date: Wed, 21 May 2025 22:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.590542
- Title: Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts
- Title(参考訳): Pixels Versus Presides:ビジュアルカウンタによる視覚言語モデルにおける知識優先の制御
- Authors: Michal Golovanevsky, William Rudman, Michael Lepori, Amir Bar, Ritambhara Singh, Carsten Eickhoff,
- Abstract要約: 我々は、世界的知識を視覚入力と直接衝突させる視覚的現実的反事実のデータセットであるVisual CounterFactを紹介した。
モデル予測は、当初記憶された先行を反映していたが、中期から後期の層における視覚的エビデンスに移行したことを示す。
このダイナミクスは、2つのモダリティ間の競合を明らかにし、視覚的な入力は評価中に最終的に事前をオーバーライドする。
- 参考スコア(独自算出の注目度): 20.915966499705032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) perform well on tasks such as visual question answering, but it remains unclear whether their reasoning relies more on memorized world knowledge or on the visual information present in the input image. To investigate this, we introduce Visual CounterFact, a new dataset of visually-realistic counterfactuals that put world knowledge priors (e.g, red strawberry) into direct conflict with visual input (e.g, blue strawberry). Using Visual CounterFact, we show that model predictions initially reflect memorized priors, but shift toward visual evidence in mid-to-late layers. This dynamic reveals a competition between the two modalities, with visual input ultimately overriding priors during evaluation. To control this behavior, we propose Pixels Versus Priors (PvP) steering vectors, a mechanism for controlling model outputs toward either world knowledge or visual input through activation-level interventions. On average, PvP successfully shifts 92.5% of color and 74.6% of size predictions from priors to counterfactuals. Together, these findings offer new tools for interpreting and controlling factual behavior in multimodal models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚的質問応答などのタスクでよく機能するが、それらの推論が記憶された世界知識や入力画像に存在する視覚情報に依存しているかどうかは不明である。
これを調べるために、ビジュアル・カウンサーファクト(Visual CounterFact)という、視覚的に現実的なカウンターファクトのデータセットを導入し、世界的知識の先行(赤イチゴなど)を視覚入力(青イチゴなど)と直接衝突させる。
Visual CounterFactを用いて、モデル予測は、当初記憶された先行を反映していたが、中期から後期の層における視覚的エビデンスに移行したことを示す。
このダイナミクスは、2つのモダリティ間の競合を明らかにし、視覚的な入力は評価中に最終的に事前をオーバーライドする。
この動作を制御するために,アクティベーションレベルの介入を通じて,世界的知識や視覚的入力に対するモデル出力を制御する機構であるPixels Versus Priors (PvP) ステアリングベクトルを提案する。
平均して、PvPは92.5%の色と74.6%の大きさの予測を前者から対物へと変化させることに成功した。
これらの発見は、マルチモーダルモデルにおいて、事実の振る舞いを解釈し、制御するための新しいツールを提供する。
関連論文リスト
- MAVias: Mitigate any Visual Bias [19.140362626182856]
コンピュータビジョンモデルにおけるバイアスの緩和は、人工知能モデルの信頼性への重要なステップである。
我々は,基礎モデルを利用したオープンセットバイアス緩和手法であるMAViasを導入し,視覚属性と対象クラス間の刺激的な関連を見出す。
CelebA、Waterbirds、ImageNet、UrbanCarsなどの多様なデータセットに関する実験は、MAViasが視覚認識タスクの幅広いバイアスを効果的に検出し軽減し、最先端技術を上回ることを示しています。
論文 参考訳(メタデータ) (2024-12-09T16:23:51Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - VisorGPT: Learning Visual Prior via Generative Pre-Training [39.40924670971505]
視覚データのさまざまなものやものは、特定の特性を持ち、深層ニューラルネットワークによって学習され、視覚的先行として暗黙的に表現される。
我々は、VisorGPTと呼ばれるジェネレーティブ・プレトレーニングを通じて、ビジュアル・プレトレーニングを学ぶことを提案する。
境界ボックス、人間のポーズ、インスタンスマスクなどのオブジェクトの視覚的位置を識別することで、VisorGPTは可能性を通じて視覚的事前をモデル化することができる。
論文 参考訳(メタデータ) (2023-05-23T07:45:23Z) - Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers [40.27531644565077]
本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。
HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。
論文 参考訳(メタデータ) (2023-03-16T15:13:09Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。