論文の概要: Grounded Concreteness: Human-Like Concreteness Sensitivity in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.18065v1
- Date: Mon, 26 Jan 2026 01:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.609771
- Title: Grounded Concreteness: Human-Like Concreteness Sensitivity in Vision-Language Models
- Title(参考訳): 接地コンクリート:視覚・言語モデルにおける人間のようなコンクリート感性
- Authors: Aryan Roy, Zekun Wang, Christopher J. MacLellan,
- Abstract要約: 我々は,視覚言語モデル (VLM) がテキストのみの大規模言語モデル (LLM) よりも,言語的具体性に対する人間的な感受性を向上するかどうかを検討する。
本研究は, (i) 質問レベルの具象度とQAの精度を関連づけた出力挙動, (ii) 表現が具象度軸に沿って構成されているかどうかを検証した埋め込み幾何, (iii) 注意動態の3つの相補的なレベルにおける具象度効果を, 注意エントロピー尺度による文脈依存性の定量化により測定する。
- 参考スコア(独自算出の注目度): 2.9491967009603255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do vision--language models (VLMs) develop more human-like sensitivity to linguistic concreteness than text-only large language models (LLMs) when both are evaluated with text-only prompts? We study this question with a controlled comparison between matched Llama text backbones and their Llama Vision counterparts across multiple model scales, treating multimodal pretraining as an ablation on perceptual grounding rather than access to images at inference. We measure concreteness effects at three complementary levels: (i) output behavior, by relating question-level concreteness to QA accuracy; (ii) embedding geometry, by testing whether representations organize along a concreteness axis; and (iii) attention dynamics, by quantifying context reliance via attention-entropy measures. In addition, we elicit token-level concreteness ratings from models and evaluate alignment to human norm distributions, testing whether multimodal training yields more human-consistent judgments. Across benchmarks and scales, VLMs show larger gains on more concrete inputs, exhibit clearer concreteness-structured representations, produce ratings that better match human norms, and display systematically different attention patterns consistent with increased grounding.
- Abstract(参考訳): 視覚言語モデル(VLM)は、テキストのみのプロンプトで評価される場合、テキストのみの大規模言語モデル(LLM)よりも、言語的具体性に対する人間的な感受性を高めるか?
本研究では,複数のモデルスケールでマッチングしたLlamaテキストのバックボーンとLlama Visionの対応を比較検討し,マルチモーダル事前学習を推論時の画像へのアクセスよりも知覚的グラウンドのアブレーションとして扱う。
3つの相補的なレベルで具体的効果を測定する。
一 質問レベルの具体性とQAの精度を関連付けることによる出力の振舞い
二 表現が具体性軸に沿って整理されているかどうかを検査して、組込み幾何学
三 注意エントロピー測度による文脈依存の定量化による注意力学
さらに,モデルからトークンレベルの具体性評価を行い,人間のノルム分布のアライメントを評価し,マルチモーダルトレーニングがより人間に一貫性のある判断を下すかどうかを検証した。
ベンチマークとスケール全体を通じて、VLMはより具体的な入力に対してより大きな利得を示し、明確で具体的な構造化された表現を示し、人間の規範によくマッチするレーティングを生成し、基盤の増大に合わせて体系的に異なる注意パターンを表示する。
関連論文リスト
- Evaluating the encoding competence of visual language models using uncommon actions [5.816389980109022]
UAITは、視覚言語モデル(VLM)の動作シーンにおける意味理解能力をテストするために設計された新しい評価ベンチマークである。
我々は,大規模言語モデル,少数ショットプロンプトエンジニアリング,テキスト・ツー・イメージ・ジェネレーションを用いて,高品質な非常識画像テキストサンプルを合成する。
我々は、複数の最先端ビジュアル言語モデルを評価し、コントラスト学習に基づくモデルと比較する。
論文 参考訳(メタデータ) (2026-01-12T17:15:45Z) - The Visual Iconicity Challenge: Evaluating Vision-Language Models on Sign Language Form-Meaning Mapping [1.5767445615203355]
ビジュアル・イコニシティ・チャレンジ(Visual Iconicity Challenge)は、視覚言語モデルを評価するための心理言語学的尺度である。
オランダの手話におけるゼロおよび少数ショット設定において,13の最先端のVLMを評価した。
より強い音韻形式予測モデルでは、人間の象徴性判断と相関する。
論文 参考訳(メタデータ) (2025-10-09T17:21:59Z) - Evaluating Robustness of Vision-Language Models Under Noisy Conditions [0.0176290054713643]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて、例外的な成功を収めている。
制御摂動下での複数の最先端VLMの性能を評価するための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-15T22:31:21Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。