Fugu-MT 論文翻訳(概要): Real Images, Worse Judgments: Evaluating Vision-Language Models on Concreteness and Imagery

論文の概要: Real Images, Worse Judgments: Evaluating Vision-Language Models on Concreteness and Imagery

arxiv url: http://arxiv.org/abs/2605.27315v1
Date: Tue, 26 May 2026 17:24:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:42.562062
Title: Real Images, Worse Judgments: Evaluating Vision-Language Models on Concreteness and Imagery
Title（参考訳）: 実画像, さらに悪い判断: 視覚・言語モデルによる具体性と画像の評価
Authors: Yifan Jiang, Ruoxi Ning, Sheng Yao, Freda Shi,
Abstract要約: 視覚言語モデルが語彙的判断における偶発的画像文脈と有用な視覚的証拠を区別できるかどうかを考察する。実画像のコンテキストは、一貫した利得を得られず、しばしば人間のレーティングとの整合性を損なう。以上の結果から,現在のVLMでは,視覚的コンテキストが語彙的判断に影響を及ぼす場合のキャリブレーションの精度が向上することが示唆された。
参考スコア（独自算出の注目度）: 21.95600321802019
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual inputs are often assumed to improve language understanding in multimodal models. We examine this assumption by asking whether vision-language models (VLMs) can distinguish useful visual evidence from incidental image context in lexical judgments. We use human concreteness and imagery ratings because they span words with varying expected visual relevance, from abstract and low-imagery words to concrete and high-imagery words. We find that real-image contexts do not yield consistent gains and often hurt alignment with human ratings, most sharply when visual evidence is least relevant. Through probing and canonical correlation analysis, complemented by an attribution case study, we find that real-image contexts are associated with representational shifts and greater sensitivity to spurious visual cues, coinciding with weaker recoverability of the targeted lexical properties. We further show that instructing models to focus solely on textual content at inference time can reduce this degradation, with the clearest gains on these vulnerable subsets. Our findings suggest that current instruction-tuned VLMs need better calibration of when visual context should inform lexical judgments.
Abstract（参考訳）: 視覚入力はしばしばマルチモーダルモデルにおける言語理解を改善すると仮定される。本稿では、視覚言語モデル(VLM)が、語彙的判断において、付随的な画像文脈と有用な視覚的証拠を区別できるかどうかを問うことにより、この仮定を検討する。人間の具体性やイメージ評価は、抽象的・低空語から具体的・高空語まで、様々な視覚的関連性を持った単語にまたがる。実画像の文脈は、一貫した利得を得られず、視覚的証拠が無関係である場合、しばしば人間の評価と整合性を損なう。帰属ケーススタディによって補完される探索と正準相関解析により、実画像のコンテキストは、表現的シフトと、刺激的な視覚的手がかりに対する感度に関連し、ターゲットの語彙特性のより弱い回復性と一致することが判明した。さらに、推論時にテキストコンテンツのみにフォーカスするようにモデルに指示することで、これらの脆弱なサブセットに対する明らかな利得により、この劣化を低減できることを示す。以上の結果から,現在のVLMでは,視覚的コンテキストが語彙的判断に影響を及ぼす場合のキャリブレーションの精度が向上することが示唆された。

関連論文リスト

More Than Meets the Eye: Measuring the Semiotic Gap in Vision-Language Models via Semantic Anchorage [3.968258676030377]
視覚的抽象下では,高い視覚的忠実度が慣用的な構成性に干渉するか否かを検討する。このベンチマークでは,リテラルと慣用的な読み出しのためのペア化,センスアンコールによる可視化を生成することで,高忠実度な視覚的ディテールを図形的象徴性に置き換える。この結果から,構成理解の向上には視覚入力の図形的抽象化と,意図した意味によるアンカリング解釈と生成が必要であることが示唆された。
論文参考訳（メタデータ） (2026-04-19T10:00:41Z)
Evaluating the encoding competence of visual language models using uncommon actions [5.816389980109022]
UAITは、視覚言語モデル(VLM)の動作シーンにおける意味理解能力をテストするために設計された新しい評価ベンチマークである。我々は,大規模言語モデル,少数ショットプロンプトエンジニアリング,テキスト・ツー・イメージ・ジェネレーションを用いて,高品質な非常識画像テキストサンプルを合成する。我々は、複数の最先端ビジュアル言語モデルを評価し、コントラスト学習に基づくモデルと比較する。
論文参考訳（メタデータ） (2026-01-12T17:15:45Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文参考訳（メタデータ） (2024-02-28T01:29:36Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
Consensus Graph Representation Learning for Better Grounded Image Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。 Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文参考訳（メタデータ） (2021-12-02T04:17:01Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)
Probing Contextual Language Models for Common Ground with Visual Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文参考訳（メタデータ） (2020-05-01T21:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。