Fugu-MT 論文翻訳(概要): Naming, Describing, and Quantifying Visual Objects in Humans and LLMs

論文の概要: Naming, Describing, and Quantifying Visual Objects in Humans and LLMs

arxiv url: http://arxiv.org/abs/2403.06935v3
Date: Tue, 4 Jun 2024 09:49:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 12:28:47.818220
Title: Naming, Describing, and Quantifying Visual Objects in Humans and LLMs
Title（参考訳）: 人間とLLMにおける視覚オブジェクトの命名・記述・定量化
Authors: Alberto Testoni, Juell Sprott, Sandro Pezzelle,
Abstract要約: 視覚・言語大言語モデル(VLLM)を3つのカテゴリ(名詞・属性・量化子)で評価する。我々は、VLLMsが人間の命名選好を世代毎に捉える能力について、様々な証拠を見出している。
参考スコア（独自算出の注目度）: 5.59181673439492
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While human speakers use a variety of different expressions when describing the same object in an image, giving rise to a distribution of plausible labels driven by pragmatic constraints, the extent to which current Vision & Language Large Language Models (VLLMs) can mimic this crucial feature of language use is an open question. This applies to common, everyday objects, but it is particularly interesting for uncommon or novel objects for which a category label may be lacking or fuzzy. Furthermore, similar patterns of variation are observed among human speakers for highly context-sensitive expressions, such as the quantifiers 'few' or 'most'. In our work, we evaluate VLLMs (FROMAGe, BLIP-2, LLaVA) on three categories (nouns, attributes, and quantifiers) where humans show great subjective variability concerning the distribution over plausible labels, using datasets and resources mostly under-explored in previous work. Our results reveal mixed evidence on the ability of VLLMs to capture human naming preferences at generation time: while some models are good at mimicking human distributions for nouns and attributes, all of them fail to assign quantifiers, a task that requires more accurate, high-level reasoning.
Abstract（参考訳）: 人間の話者は、イメージ内で同じオブジェクトを記述する際に様々な表現を使用するため、実用的制約によって駆動される可塑性ラベルの分布が生じるが、現在のビジョン&言語大言語モデル(VLLM)がこの言語使用の重要な特徴を模倣できる範囲は、オープンな疑問である。これは一般的な日常的な対象に当てはまるが、カテゴリーラベルが欠落したりファジィになるような、珍しい、あるいは新しい対象には特に興味深い。さらに、人間の話者の間では「fw」や「most」といった、文脈に敏感な表現のための類似した変化パターンが観察されている。本研究では,VLLMs (FROMAGe, BLIP-2, LLaVA) を3つのカテゴリ (名詞, 属性, 定量化器) で評価し, 従来の研究でほとんど探索されていないデータセットと資源を用いて, 可塑性ラベル上の分布に関する大きな主観的変動を示す。いくつかのモデルでは、名詞や属性の人間の分布を模倣するのが得意であるが、これらは全て、より正確で高レベルの推論を必要とするタスクである量化子を割り当てることに失敗している。

関連論文リスト

Perception of Visual Content: Differences Between Humans and Foundation Models [4.251488927334905]
本研究では,多様な社会経済的文脈における画像のヒト生成アノテーションとML生成アノテーションの類似性について検討した。我々は、知覚の違いを理解し、コンテンツ解釈における潜在的なバイアスを特定することを目的としている。
論文参考訳（メタデータ） (2024-11-28T07:37:04Z)
Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。 VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2024-11-27T01:55:08Z)
Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文参考訳（メタデータ） (2024-11-21T13:09:36Z)
Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。グループ化されたサブワードの検査では様々な意味的類似性を示します
論文参考訳（メタデータ） (2024-11-07T08:38:32Z)
Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。 AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文参考訳（メタデータ） (2024-11-04T21:05:01Z)
Are LLMs Models of Distributional Semantics? A Case Study on Quantifiers [14.797001158310092]
分布意味論モデルは真理条件推論や記号処理に苦しむ。期待とは対照的に、LSMは正確な量化器とあいまいな量化器の人間の判断とより密接に一致している。
論文参考訳（メタデータ） (2024-10-17T19:28:35Z)
Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。我々は,VLM予測値と人間定義属性分布の対応関係を解析した。複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文参考訳（メタデータ） (2024-03-15T18:37:15Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Exploiting Unlabeled Data with Vision and Language Models for Object Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文参考訳（メタデータ） (2022-07-18T21:47:15Z)
Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文参考訳（メタデータ） (2021-12-16T05:36:08Z)
A Comparative Study of Lexical Substitution Approaches based on Neural Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文参考訳（メタデータ） (2020-05-29T18:43:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。