論文の概要: Can Vision-Language Models Infer Speaker's Ignorance? The Role of Visual and Linguistic Cues
- arxiv url: http://arxiv.org/abs/2502.09120v3
- Date: Sat, 17 May 2025 07:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.45329
- Title: Can Vision-Language Models Infer Speaker's Ignorance? The Role of Visual and Linguistic Cues
- Title(参考訳): 視覚言語モデルは話者の無視を推測できるか? : 視覚的・言語的手がかりの役割
- Authors: Ye-eun Cho, Yunho Maeng,
- Abstract要約: 本研究では,視覚言語モデル(VLM)が実用的な推論を行うことができるかどうかを検討する。
視覚的に表現された状況(視覚的キュー)とQUDに基づく言語的プロンプト(言語的キュー)を系統的に操作した。
文脈的情報性を高めるために言語的手がかりが追加されたとき、クロードは両方の文脈的手がかりを統合することで、より人間的な推論を示した。
これらの結果は、これらのモデルが文脈的キューをどのように扱うかが異なるが、クロードの複数のキューを組み合わせる能力は、マルチモーダルモデルにおける実用的能力の出現を示唆する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates whether vision-language models (VLMs) can perform pragmatic inference, focusing on ignorance implicatures, utterances that imply the speaker's lack of precise knowledge. To test this, we systematically manipulated contextual cues: the visually depicted situation (visual cue) and QUD-based linguistic prompts (linguistic cue). When only visual cues were provided, three state-of-the-art VLMs (GPT-4o, Gemini 1.5 Pro, and Claude 3.5 sonnet) produced interpretations largely based on the lexical meaning of the modified numerals. When linguistic cues were added to enhance contextual informativeness, Claude exhibited more human-like inference by integrating both types of contextual cues. In contrast, GPT and Gemini favored precise, literal interpretations. Although the influence of contextual cues increased, they treated each contextual cue independently and aligned them with semantic features rather than engaging in context-driven reasoning. These findings suggest that although the models differ in how they handle contextual cues, Claude's ability to combine multiple cues may signal emerging pragmatic competence in multimodal models.
- Abstract(参考訳): 本研究では,視覚言語モデル(VLM)が,話者の正確な知識の欠如を示唆する発話の無知性に着目し,実用的な推論を行うことができるかどうかを検討する。
これをテストするために、視覚的に描写された状況(視覚的キュー)とQUDに基づく言語的プロンプト(言語的キュー)を系統的に操作した。
3つの最先端のVLM(GPT-4o、Gemini 1.5 Pro、Claude 3.5 sonnet)は、主に修正された数字の語彙的意味に基づく解釈を生み出した。
文脈的情報性を高めるために言語的手がかりが追加されたとき、クロードは両方の文脈的手がかりを統合することで、より人間的な推論を示した。
対照的に、GPTとGeminiは正確な解釈を好んだ。
文脈的手がかりの影響は増加したが、それぞれの文脈的キューを個別に扱い、文脈的推論に携わるのではなく意味的特徴と整合させた。
これらの結果は、これらのモデルが文脈的キューをどのように扱うかが異なるが、クロードの複数のキューを組み合わせる能力は、マルチモーダルモデルにおける実用的能力の出現を示唆する可能性があることを示唆している。
関連論文リスト
- VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations [13.608653575298183]
本稿では、言語モデルの意味的および語彙的理解を評価するために設計されたVISLAベンチマークを紹介する。
34の視覚言語モデル (VLM) と20の単言語モデル (ULM) による評価は、語彙と意味のバリエーションを区別するのに驚くほど困難であることを示している。
論文 参考訳(メタデータ) (2024-04-25T07:08:00Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - A Closer Look at Linguistic Knowledge in Masked Language Models: The
Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。
文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文 参考訳(メタデータ) (2020-11-02T13:25:39Z) - Linguistically-aware Attention for Reducing the Semantic-Gap in
Vision-Language Tasks [9.462808515258464]
本稿では,汎用物体検出装置から得られた物体属性を利用する注意機構であるLingguistically-Aware Attention (LAT)を提案する。
LATは、共通の言語学的に豊かな空間における視覚的およびテキスト的モダリティを表し、注意プロセスに対する言語的認識を提供する。
我々は,VQA,VQA,画像キャプションという3つの視覚言語(V-L)タスクにおけるLATの有効性を適用し,実演する。
論文 参考訳(メタデータ) (2020-08-18T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。