論文の概要: The influence of visual and linguistic cues on ignorance inference in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.09120v2
- Date: Sat, 15 Feb 2025 01:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 10:45:19.745677
- Title: The influence of visual and linguistic cues on ignorance inference in Vision-Language Models
- Title(参考訳): 視覚・言語的手がかりが視覚・言語モデルにおける無知推論に及ぼす影響
- Authors: Ye-eun Cho, Yunho Maeng,
- Abstract要約: 本研究では視覚言語モデル(VLM)が視覚的・言語的手がかりと無関係に処理する方法について検討した。
その結果、両モデルとも言語的手がかり(修飾語)に対する感受性を示したが、人間のように視覚的手がかり(文脈)による無知障害を処理できなかったことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study explored how Vision-Language Models (VLMs) process ignorance implicatures with visual and linguistic cues. Particularly, we focused on the effects of contexts (precise and approximate contexts) and modifier types (bare numerals, superlative, and comparative modifiers), which were considered pragmatic and semantic factors respectively. Methodologically, we conducted a truth-value judgment task in visually grounded settings using GPT-4o and Gemini 1.5 Pro. The results indicate that while both models exhibited sensitivity to linguistic cues (modifier), they failed to process ignorance implicatures with visual cues (context) as humans do. Specifically, the influence of context was weaker and inconsistent across models, indicating challenges in pragmatic reasoning for VLMs. On the other hand, superlative modifiers were more strongly associated with ignorance implicatures as compared to comparative modifiers, supporting the semantic view. These findings highlight the need for further advancements in VLMs to process language-vision information in a context-dependent way to achieve human-like pragmatic inference.
- Abstract(参考訳): 本研究では視覚言語モデル(VLM)が視覚的・言語的手がかりと無関係に処理する方法について検討した。
特に,現実的・意味的要因である文脈(高精度・近似的文脈)と修飾子型(基本数値,比較修飾子)の影響に着目した。
GPT-4o と Gemini 1.5 Pro を用いた視覚的接地環境で真理値判定を行った。
その結果、両モデルとも言語的手がかり(修飾語)に対する感受性を示したが、人間のように視覚的手がかり(文脈)による無知障害を処理できなかったことが示唆された。
特に、文脈の影響はモデル間で弱く矛盾しており、VLMの実用的推論における課題を示している。
一方、最上級の修飾子は、比較修飾子と比較して無知命令と強く結びついており、意味的ビューをサポートしている。
これらの知見は、VLMのさらなる進歩が、人間のような実用的推論を達成するための文脈依存的な方法で言語ビジョン情報を処理する必要性を浮き彫りにしている。
関連論文リスト
- VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations [13.608653575298183]
本稿では、言語モデルの意味的および語彙的理解を評価するために設計されたVISLAベンチマークを紹介する。
34の視覚言語モデル (VLM) と20の単言語モデル (ULM) による評価は、語彙と意味のバリエーションを区別するのに驚くほど困難であることを示している。
論文 参考訳(メタデータ) (2024-04-25T07:08:00Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - A Closer Look at Linguistic Knowledge in Masked Language Models: The
Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。
文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文 参考訳(メタデータ) (2020-11-02T13:25:39Z) - Linguistically-aware Attention for Reducing the Semantic-Gap in
Vision-Language Tasks [9.462808515258464]
本稿では,汎用物体検出装置から得られた物体属性を利用する注意機構であるLingguistically-Aware Attention (LAT)を提案する。
LATは、共通の言語学的に豊かな空間における視覚的およびテキスト的モダリティを表し、注意プロセスに対する言語的認識を提供する。
我々は,VQA,VQA,画像キャプションという3つの視覚言語(V-L)タスクにおけるLATの有効性を適用し,実演する。
論文 参考訳(メタデータ) (2020-08-18T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。