論文の概要: Do Vision-Language Models Understand Visual Persuasiveness?
- arxiv url: http://arxiv.org/abs/2511.17036v1
- Date: Fri, 21 Nov 2025 08:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.935827
- Title: Do Vision-Language Models Understand Visual Persuasiveness?
- Title(参考訳): 視覚言語モデルは視覚的説得力に見合うか?
- Authors: Gyuwon Park,
- Abstract要約: バイナリ説得力判定のための高合意データセットを構築した。
視覚的説得因子(VPF)の分類について紹介する。
また,説得関連推論のための認知的ステアリングと知識注入戦略についても検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have enabled impressive multi-modal reasoning and understanding. Yet, whether these models truly grasp visual persuasion-how visual cues shape human attitudes and decisions-remains unclear. To probe this question, we construct a high-consensus dataset for binary persuasiveness judgment and introduce the taxonomy of Visual Persuasive Factors (VPFs), encompassing low-level perceptual, mid-level compositional, and high-level semantic cues. We also explore cognitive steering and knowledge injection strategies for persuasion-relevant reasoning. Empirical analysis across VLMs reveals a recall-oriented bias-models over-predict high persuasiveness-and weak discriminative power for low/mid-level features. In contrast, high-level semantic alignment between message and object presence emerges as the strongest predictor of human judgment. Among intervention strategies, simple instruction or unguided reasoning scaffolds yield marginal or negative effects, whereas concise, object-grounded rationales significantly improve precision and F1 scores. These results indicate that VLMs core limitation lies not in recognizing persuasive objects but in linking them to communicative intent.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、印象的なマルチモーダル推論と理解を可能にしている。
しかし、これらのモデルが本当に人間の態度や意思決定を形作る視覚的説得方法を理解するかどうかは不明だ。
そこで我々は,二分的説得力判定のための高濃度データセットを構築し,視覚的説得力因子(VPF)の分類を導入し,低レベルの知覚的,中レベルの構成的,高レベルの意味的手がかりを包含する。
また,説得関連推論のための認知的ステアリングと知識注入戦略についても検討した。
VLMを横断する実証分析により、低レベル・中レベルの特徴に対する高説得性と弱い識別力の過大な予測を、リコール指向のバイアスモデルが明らかにした。
対照的に、メッセージとオブジェクトの存在の間の高レベルのセマンティックアライメントは、人間の判断の最も強い予測因子として現れます。
介入戦略の中で、単純な指示や無誘導の推論足場は限界効果または負の効果をもたらすが、簡潔で客観的な根拠は精度とF1スコアを著しく向上させる。
これらの結果は、VLMのコア制限は、説得的対象を認識することではなく、伝達意図とリンクすることにあることを示している。
関連論文リスト
- MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion [73.99171322670772]
LVLM(Large Vision-Language Models)は、ショッピング、健康、ニュースなどの分野に展開されている。
MMPersuadeはLVLMにおけるマルチモーダルパーサージョンダイナミクスを体系的に研究するための統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-26T17:39:21Z) - Context Matters: Learning Global Semantics via Object-Centric Representation [8.195437248815802]
ビジョンモデルは、コンテキスト内学習において同等の進歩を見せていない。
このギャップは、現在の視覚変換器(ViT)トレーニングスキームにおける意味的および文脈的ガイダンスの欠如に起因する可能性がある、と我々は主張する。
対象」を「単語」の視覚的等価性として直接モデル化し、そのモデルに視覚要素間のグローバルな文脈と意味を学習させることを提案する。
論文 参考訳(メタデータ) (2025-10-07T08:33:36Z) - Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - LATTE: Learning to Think with Vision Specialists [110.43838069105998]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。
我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。