論文の概要: A Computational Approach to Visual Metonymy
- arxiv url: http://arxiv.org/abs/2601.17706v1
- Date: Sun, 25 Jan 2026 05:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.224535
- Title: A Computational Approach to Visual Metonymy
- Title(参考訳): ビジュアル・メトニミーへの計算的アプローチ
- Authors: Saptarshi Ghosh, Linfeng Liu, Tianyu Jiang,
- Abstract要約: このような間接的な視覚的参照はビジュアル・メトニミー(Visual meonymy)と呼ばれ、視聴者に明示的な描写ではなく、関連する手がかりを通じてターゲット概念を復元するよう促す。
メトニックな視覚表現を生成するために,大規模言語モデルとテキスト・ツー・イメージモデルを活用する。
このフレームワークを用いて、2000の質問からなる最初のビジュアル・メトニミー・データセットであるViMETを構築し、マルチモーダル言語モデルにおける認知的推論能力を評価する。
- 参考スコア(独自算出の注目度): 5.812825068635779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images often communicate more than they literally depict: a set of tools can suggest an occupation and a cultural artifact can suggest a tradition. This kind of indirect visual reference, known as visual metonymy, invites viewers to recover a target concept via associated cues rather than explicit depiction. In this work, we present the first computational investigation of visual metonymy. We introduce a novel pipeline grounded in semiotic theory that leverages large language models and text-to-image models to generate metonymic visual representations. Using this framework, we construct ViMET, the first visual metonymy dataset comprising 2,000 multiple-choice questions to evaluate the cognitive reasoning abilities in multimodal language models. Experimental results on our dataset reveal a significant gap between human performance (86.9%) and state-of-the-art vision-language models (65.9%), highlighting limitations in machines' ability to interpret indirect visual references. Our dataset is publicly available at: https://github.com/cincynlp/ViMET.
- Abstract(参考訳): ツールのセットは職業を示唆し、文化的アーティファクトは伝統を示唆する。
このような間接的な視覚的参照はビジュアル・メトニミー(Visual meonymy)と呼ばれ、視聴者に明示的な描写ではなく、関連する手がかりを通じてターゲット概念を復元するよう促す。
本研究は,視覚メトニミーの計算的研究である。
メトニックな視覚表現を生成するために,大規模言語モデルとテキスト・ツー・イメージモデルを活用する。
このフレームワークを用いて、2000の質問からなる最初のビジュアル・メトニミー・データセットであるViMETを構築し、マルチモーダル言語モデルにおける認知的推論能力を評価する。
我々のデータセットでの実験結果から、人間のパフォーマンス(86.9%)と最先端のビジョン言語モデル(65.9%)の間に大きなギャップがあり、マシンが間接的な視覚参照を解釈する能力の限界が強調されている。
私たちのデータセットは、https://github.com/cincynlp/ViMET.comで公開されています。
関連論文リスト
- ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
大型視覚言語モデル(LVLM)は前例のない視覚推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Winoground: Probing Vision and Language Models for Visio-Linguistic
Compositionality [42.17866394327228]
本稿では,視覚・言語モデルによる視覚・言語合成推論の能力を評価するための新しいタスクとデータセットを提案する。
2つの画像と2つのキャプションが与えられた場合、目的はそれらを正しくマッチングすることである。
私たちはさまざまな最先端のビジョンと言語モデルを調査し、驚くべきことに、それらが偶然よりもはるかに優れているものはないことに気付きました。
論文 参考訳(メタデータ) (2022-04-07T02:17:05Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。