論文の概要: Visual Persuasion: What Influences Decisions of Vision-Language Models?
- arxiv url: http://arxiv.org/abs/2602.15278v1
- Date: Tue, 17 Feb 2026 00:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.946873
- Title: Visual Persuasion: What Influences Decisions of Vision-Language Models?
- Title(参考訳): 視覚的説得:視覚言語モデルの決定はどのような影響を及ぼすか?
- Authors: Manuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh,
- Abstract要約: 視覚言語モデル(VLM)の視覚的嗜好の構造について検討する。
我々のキーとなる考え方は、エージェントの判断機能を、明らかにされた嗜好を通じて推測できる潜在視覚ユーティリティとして扱うことである。
選択を駆動する一貫した視覚的テーマを識別し、これらの嗜好を説明するための自動解釈可能性パイプラインを開発する。
- 参考スコア(独自算出の注目度): 27.526872154566316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.
- Abstract(参考訳): ウェブには画像が散りばめられ、かつては人間の消費のために作られ、視覚言語モデル(VLM)を使用してエージェントによって解釈されるようになった。
これらのエージェントは大規模に視覚的な決定を行い、何をクリックするか、推奨するか、購入するかを決めます。
しかし、視覚的嗜好の構造についてはほとんど分かっていない。
本稿では、VLMを制御された画像ベース選択タスクに配置し、その入力を体系的に摂動させることにより、これを研究するためのフレームワークを提案する。
我々のキーとなる考え方は、エージェントの判断機能を、明らかにされた選好を通して推測できる潜在的な視覚ユーティリティとして扱うことである。
製品写真などの一般的な画像から、画像生成モデル(合成、照明、背景など)を用いて、テキスト最適化手法を反復的に提案、適用するための視覚的プロンプト最適化手法を提案する。
次に、どの編集が選択確率を増加させるかを評価する。
また、フロンティアVLMの大規模実験により、最適化された編集は、頭と頭の比較において、選択確率を著しくシフトさせることを示した。
選択を駆動する一貫した視覚的テーマを識別し、これらの嗜好を説明するための自動解釈可能性パイプラインを開発する。
このアプローチは、視覚的脆弱性、さもなくば野生で暗黙的に発見されるかもしれない安全上の懸念、画像ベースのAIエージェントのより積極的な監査とガバナンスを支援する、実用的で効率的な方法を提供する、と私たちは主張する。
関連論文リスト
- How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection [26.020338338880034]
本稿では、現在の画像の視覚情報のみを用いて、最も情報性の高い次の視点を選択するタスクである、視覚的接地型アクティブビュー選択(VG-AVS)を紹介する。
提案手法は,視点選択に基づく強い質問応答性能を実現し,合成シーンや実シーンに頑健に一般化する。
論文 参考訳(メタデータ) (2025-12-15T12:04:26Z) - Exploring the Design Space of Visual Context Representation in Video MLLMs [102.11582556690388]
ビデオマルチモーダル大言語モデル(MLLM)は、様々な下流タスクでビデオセマンティクスを理解する際、顕著な能力を示した。
ビジュアルコンテキスト表現は、ビデオからフレームを選択し、フレームからトークンを更に選択するスキームを指す。
本稿では,視覚的文脈表現のための設計空間について検討し,より効率的な表現方式を見出すことにより,映像MLLMの性能向上を目指す。
論文 参考訳(メタデータ) (2024-10-17T15:59:52Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。