論文の概要: Naming, Describing, and Quantifying Visual Objects in Humans and LLMs
- arxiv url: http://arxiv.org/abs/2403.06935v2
- Date: Wed, 13 Mar 2024 09:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 10:59:21.144363
- Title: Naming, Describing, and Quantifying Visual Objects in Humans and LLMs
- Title(参考訳): 人間とLLMにおける視覚オブジェクトの命名・記述・定量化
- Authors: Alberto Testoni, Juell Sprott, Sandro Pezzelle
- Abstract要約: 視覚・言語大言語モデル(VLLM)を3つのカテゴリ(名詞・属性・量化子)で評価する。
以上の結果から,VLLMsがヒトの命名嗜好を捉える能力を示す証拠が混在していることが判明した。
- 参考スコア(独自算出の注目度): 6.108658068951225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While human speakers use a variety of different expressions when describing
the same object in an image, giving rise to a distribution of plausible labels
driven by pragmatic constraints, the extent to which current Vision \& Language
Large Language Models (VLLMs) can mimic this crucial feature of language use is
an open question. This applies to common, everyday objects, but it is
particularly interesting for uncommon or novel objects for which a category
label may be lacking or fuzzy. Furthermore, humans show clear production
preferences for highly context-sensitive expressions, such as the quantifiers
`few' or `most'. In our work, we evaluate VLLMs (FROMAGe, BLIP-2, LLaVA) on
three categories (nouns, attributes, and quantifiers) where humans show great
subjective variability concerning the distribution over plausible labels, using
datasets and resources mostly under-explored in previous work. Our results
reveal mixed evidence on the ability of VLLMs to capture human naming
preferences, with all models failing in tasks that require high-level reasoning
such as assigning quantifiers.
- Abstract(参考訳): 人間の話者は、イメージ内で同じオブジェクトを記述する際に様々な表現を使用するため、実用的制約によって駆動される可塑性ラベルの分布が生じるが、現在のVision \&Language Large Language Models(VLLM)がこの言語使用の重要な特徴を模倣できる範囲は、オープンな疑問である。
これは一般的な日常的な対象に当てはまるが、カテゴリーラベルが欠落したりファジィになるような、珍しい、あるいは新しい対象には特に興味深い。
さらに、人間は『few』や『most』などの量化子のような、文脈に敏感な表現に対する明確な生産嗜好を示す。
本研究では,VLLMs (FROMAGe, BLIP-2, LLaVA) を3つのカテゴリ (名詞, 属性, 定量化器) で評価し, 従来の研究でほとんど探索されていないデータセットと資源を用いて, 可塑性ラベル上の分布に関する大きな主観的変動を示す。
これらの結果から,VLLMが人間の命名選好を捉えていることを示すとともに,量化器の割り当てなどの高レベルな推論を必要とするタスクにおいて,全てのモデルが失敗することを示す。
関連論文リスト
- Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。
本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。
我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文 参考訳(メタデータ) (2024-11-21T13:09:36Z) - Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文 参考訳(メタデータ) (2024-11-04T21:05:01Z) - Are LLMs Models of Distributional Semantics? A Case Study on Quantifiers [14.797001158310092]
分布意味論モデルは真理条件推論や記号処理に苦しむ。
期待とは対照的に、LSMは正確な量化器とあいまいな量化器の人間の判断とより密接に一致している。
論文 参考訳(メタデータ) (2024-10-17T19:28:35Z) - Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。
我々は,VLM予測値と人間定義属性分布の対応関係を解析した。
複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文 参考訳(メタデータ) (2024-03-15T18:37:15Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。