論文の概要: Naming, Describing, and Quantifying Visual Objects in Humans and LLMs
- arxiv url: http://arxiv.org/abs/2403.06935v1
- Date: Mon, 11 Mar 2024 17:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:54:14.017502
- Title: Naming, Describing, and Quantifying Visual Objects in Humans and LLMs
- Title(参考訳): 人間とLLMにおける視覚オブジェクトの命名・記述・定量化
- Authors: Alberto Testoni, Juell Sprott, Sandro Pezzelle
- Abstract要約: 視覚・言語大言語モデル(VLLM)を3つのカテゴリ(名詞・属性・量化子)で評価する。
以上の結果から,VLLMsがヒトの命名嗜好を捉える能力を示す証拠が混在していることが判明した。
- 参考スコア(独自算出の注目度): 6.108658068951225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While human speakers use a variety of different expressions when describing
the same object in an image, giving rise to a distribution of plausible labels
driven by pragmatic constraints, the extent to which current Vision \& Language
Large Language Models (VLLMs) can mimic this crucial feature of language use is
an open question. This applies to common, everyday objects, but it is
particularly interesting for uncommon or novel objects for which a category
label may be lacking or fuzzy. Furthermore, humans show clear production
preferences for highly context-sensitive expressions, such as the quantifiers
`few' or `most'. In our work, we evaluate VLLMs (FROMAGe, BLIP-2, LLaVA) on
three categories (nouns, attributes, and quantifiers) where humans show great
subjective variability concerning the distribution over plausible labels, using
datasets and resources mostly under-explored in previous work. Our results
reveal mixed evidence on the ability of VLLMs to capture human naming
preferences, with all models failing in tasks that require high-level reasoning
such as assigning quantifiers.
- Abstract(参考訳): 人間の話者は、イメージ内で同じオブジェクトを記述する際に様々な表現を使用するため、実用的制約によって駆動される可塑性ラベルの分布が生じるが、現在のVision \&Language Large Language Models(VLLM)がこの言語使用の重要な特徴を模倣できる範囲はオープンな問題である。
これは一般的な日常のオブジェクトにも当てはまるが、カテゴリラベルが欠如したりファジィになったりする珍しいオブジェクトや新しいオブジェクトには特に興味深い。
さらに、人間は「few」や「most」といった、文脈に敏感な表現に対する明確な生産嗜好を示す。
本研究では,VLLMs (FROMAGe, BLIP-2, LLaVA) を3つのカテゴリ (名詞, 属性, 定量化器) で評価し, 従来の研究でほとんど探索されていないデータセットと資源を用いて評価した。
これらの結果から,VLLMが人間の命名選好を捉えていることを示すとともに,量化器の割り当てなどの高レベルな推論を必要とするタスクにおいて,全てのモデルが失敗することを示す。
関連論文リスト
- Evaluating VLMs for Score-Based, Multi-Probe Annotation of 3D Objects [73.50105018389958]
ラベルのない3Dオブジェクトは、様々なアノテーションタスクで事前訓練された視覚言語モデル(VLM)を利用する機会を提供する。
提案手法は, VLM のスコアをサンプル応答に用いて, VLM の問合せ毎に異なる因子を疎外する手法である。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - Attention is Not Always What You Need: Towards Efficient Classification
of Domain-Specific Text [1.1508304497344637]
階層構造に整理された数百のクラスを持つ大規模ITコーパスでは、階層構造における上位レベルのクラスの正確な分類が不可欠である。
ビジネスの世界では、高額なブラックボックスモデルよりも効率的で説明可能なMLモデルが好まれる。
PLMが広く使われているにもかかわらず、これらのモデルがドメイン固有のテキスト分類に使われている理由として、明確で明確な必要性が欠如している。
論文 参考訳(メタデータ) (2023-03-31T03:17:23Z) - A Comprehensive Empirical Evaluation of Existing Word Embedding
Approaches [5.065947993017158]
既存の単語埋め込み手法の特徴を概説し,多くの分類タスクについて解析する。
伝統的なアプローチでは、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えることができない。
一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捕捉し、生成した単語表現における単語関係を保存することができる。
論文 参考訳(メタデータ) (2023-03-13T15:34:19Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。