論文の概要: Benchmarking VLMs' Reasoning About Persuasive Atypical Images
- arxiv url: http://arxiv.org/abs/2409.10719v3
- Date: Mon, 16 Dec 2024 00:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:49:32.756446
- Title: Benchmarking VLMs' Reasoning About Persuasive Atypical Images
- Title(参考訳): 説得的非定型画像に関するVLMのベンチマーク
- Authors: Sina Malakouti, Aysan Aghazadeh, Ashmit Khandelwal, Adriana Kovashka,
- Abstract要約: 視覚言語モデル(VLM)は、様々なタスクにおいて強力なゼロショット一般化を示している。
広告のような修辞的で説得力のあるビジュアルメディアを理解する能力は、まだ検討されていない。
本稿では,VLMによる説得的イメージの非定型性理解のベンチマークを行うための3つの新しいタスクを紹介する。
- 参考スコア(独自算出の注目度): 31.944810096834104
- License:
- Abstract: Vision language models (VLMs) have shown strong zero-shot generalization across various tasks, especially when integrated with large language models (LLMs). However, their ability to comprehend rhetorical and persuasive visual media, such as advertisements, remains understudied. Ads often employ atypical imagery, using surprising object juxtapositions to convey shared properties. For example, Fig. 1 (e) shows a beer with a feather-like texture. This requires advanced reasoning to deduce that this atypical representation signifies the beer's lightness. We introduce three novel tasks, Multi-label Atypicality Classification, Atypicality Statement Retrieval, and Aypical Object Recognition, to benchmark VLMs' understanding of atypicality in persuasive images. We evaluate how well VLMs use atypicality to infer an ad's message and test their reasoning abilities by employing semantically challenging negatives. Finally, we pioneer atypicality-aware verbalization by extracting comprehensive image descriptions sensitive to atypical elements. Our findings reveal that: (1) VLMs lack advanced reasoning capabilities compared to LLMs; (2) simple, effective strategies can extract atypicality-aware information, leading to comprehensive image verbalization; (3) atypicality aids persuasive advertisement understanding. Code and data will be made available.
- Abstract(参考訳): 視覚言語モデル(VLM)は様々なタスク、特に大規模言語モデル(LLM)との統合において、強力なゼロショット一般化を示している。
しかし、広告などの修辞的・説得的な視覚メディアを理解する能力は、いまだ検討されていない。
広告は、しばしば非典型的なイメージを使用し、驚くべきオブジェクトの並置を使って共有プロパティを伝達する。
例えば、図1(e)は羽のような質感を持つビールを示している。
これは、この非定型表現がビールの軽さを表すと推測する高度な推論を必要とする。
本稿では, マルチラベル非定型分類, 非定型文検索, Aypical Object Recognitionの3つの新しいタスクを紹介し, 説得的画像における非定型性理解のベンチマークを行う。
我々は、VLMが非定型性を用いて広告のメッセージを推測し、意味論的に難解なネガティブを用いて推論能力をテストすることを評価する。
最後に,非定型的要素に敏感な包括的画像記述を抽出し,非定型性を考慮した言語化の先駆者となった。
その結果, 1) VLM は LLM と比較して高度な推論能力が欠如していること, (2) 単純で効果的な戦略は非定型的認識情報を抽出し, 包括的画像の言語化につながること,(3) 非定型性は説得力のある広告理解を支援すること,などが判明した。
コードとデータは利用可能になる。
関連論文リスト
- Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images [19.923665989164387]
我々は,Multimodal Causal Reasoningベンチマーク,すなわち MuCR を提案し,大規模言語モデルに挑戦する。
具体的には,セマンティック因果関係と視覚的手がかりを組み込んだシアム画像を作成するための,プロンプト駆動画像合成手法を提案する。
我々の広範な実験により、現在最先端のVLLMは、我々が期待したようなマルチモーダル因果推論に熟練していないことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions [9.190831897944957]
視覚言語モデル(VLM)の表現は、しばしば形状のような視覚的属性に基づいている。
本稿では,重要なテキスト特徴を特徴付ける新しい手法であるExtract and Explore (EX2)を提案する。
VLMは画像とシーン記述とを単純に一致させるのではなく、視覚的でない、あるいは刺激的でない記述がそれらの表現に大きな影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-25T06:05:50Z) - How Far Are We from Intelligent Visual Deductive Reasoning? [41.4377002379162]
私たちは、より洗練されているが探求の少ない領域である、視覚に基づく誘惑的推論を掘り下げる。
現在のSOTA VLMでは、未公表の盲点が発見されている。
LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。
論文 参考訳(メタデータ) (2024-03-07T18:35:54Z) - Context Disentangling and Prototype Inheriting for Robust Visual
Grounding [56.63007386345772]
ビジュアルグラウンドディング(VG)は、与えられた言語クエリに基づいて、画像内の特定のターゲットを特定することを目的としている。
本稿では,両シーンを両シーンで処理する堅牢な視覚的グラウンド化のために,コンテキストの切り離しとプロトタイプを継承する新しいフレームワークを提案する。
本手法は両シナリオにおいて最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T09:03:53Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature
Adaptation of Vision-Language Models [40.54372699488922]
我々は、事前学習された視覚言語モデル(VLM)のレンズによる画像広告理解に関する最初の実証的研究を行う。
本稿では,画像広告のマルチモーダル情報を効果的に融合する機能適応戦略を提案する。
論文 参考訳(メタデータ) (2023-05-28T04:49:01Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Unifying Vision-Language Representation Space with Single-tower
Transformer [29.604520441315135]
両モダリティを同時にモダリティに依存しない方法で符号化する統一視覚言語表現空間を学習するためにモデルを訓練する。
我々は、モダリティ固有の表現空間を学習する以前の作品とOneRを区別する興味深い性質を発見する。
論文 参考訳(メタデータ) (2022-11-21T02:34:21Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。