Fugu-MT 論文翻訳(概要): Naming, Describing, and Quantifying Visual Objects in Humans and LLMs

論文の概要: Naming, Describing, and Quantifying Visual Objects in Humans and LLMs

arxiv url: http://arxiv.org/abs/2403.06935v1
Date: Mon, 11 Mar 2024 17:20:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 17:54:14.017502
Title: Naming, Describing, and Quantifying Visual Objects in Humans and LLMs
Title（参考訳）: 人間とLLMにおける視覚オブジェクトの命名・記述・定量化
Authors: Alberto Testoni, Juell Sprott, Sandro Pezzelle
Abstract要約: 視覚・言語大言語モデル(VLLM)を3つのカテゴリ(名詞・属性・量化子)で評価する。以上の結果から,VLLMsがヒトの命名嗜好を捉える能力を示す証拠が混在していることが判明した。
参考スコア（独自算出の注目度）: 6.108658068951225
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While human speakers use a variety of different expressions when describing the same object in an image, giving rise to a distribution of plausible labels driven by pragmatic constraints, the extent to which current Vision \& Language Large Language Models (VLLMs) can mimic this crucial feature of language use is an open question. This applies to common, everyday objects, but it is particularly interesting for uncommon or novel objects for which a category label may be lacking or fuzzy. Furthermore, humans show clear production preferences for highly context-sensitive expressions, such as the quantifiers `few' or `most'. In our work, we evaluate VLLMs (FROMAGe, BLIP-2, LLaVA) on three categories (nouns, attributes, and quantifiers) where humans show great subjective variability concerning the distribution over plausible labels, using datasets and resources mostly under-explored in previous work. Our results reveal mixed evidence on the ability of VLLMs to capture human naming preferences, with all models failing in tasks that require high-level reasoning such as assigning quantifiers.
Abstract（参考訳）: 人間の話者は、イメージ内で同じオブジェクトを記述する際に様々な表現を使用するため、実用的制約によって駆動される可塑性ラベルの分布が生じるが、現在のVision \&Language Large Language Models(VLLM)がこの言語使用の重要な特徴を模倣できる範囲はオープンな問題である。これは一般的な日常のオブジェクトにも当てはまるが、カテゴリラベルが欠如したりファジィになったりする珍しいオブジェクトや新しいオブジェクトには特に興味深い。さらに、人間は「few」や「most」といった、文脈に敏感な表現に対する明確な生産嗜好を示す。本研究では,VLLMs (FROMAGe, BLIP-2, LLaVA) を3つのカテゴリ (名詞, 属性, 定量化器) で評価し, 従来の研究でほとんど探索されていないデータセットと資源を用いて評価した。これらの結果から,VLLMが人間の命名選好を捉えていることを示すとともに,量化器の割り当てなどの高レベルな推論を必要とするタスクにおいて,全てのモデルが失敗することを示す。

関連論文リスト

Are Multimodal Large Language Models Good Annotators for Image Tagging? [62.01475514488922]
本稿では,MLLMの生成するアノテーションと人間のアノテーションのギャップを分析することを目的とする。本稿では,MLLM生成アノテーションと人間のアノテーションのギャップを狭めることを目的とした,画像タグ付けのための新しいフレームワークであるTagLLMを提案する。
論文参考訳（メタデータ） (2026-02-24T14:53:16Z)
TrackList: Tracing Back Query Linguistic Diversity for Head and Tail Knowledge in Open Large Language Models [1.634029945636262]
大規模言語モデル(LLM)は、ユーザ入力クエリに定義型回答を与えるのに効果的であることが証明されている。より詳細な言語および統計的分析パイプラインであるTrackListを用いて,この性能低下を評価した。概念(頭部)の高頻度と低周波(尾)が言語モデルの性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-11-26T03:14:09Z)
Quantification and object perception in Multimodal Large Language Models deviate from human linguistic cognition [0.12314765641075438]
数量化は(Multimodal) Large Language Models (MLLM) にとって特に難しい言語現象であることが証明されている。本稿では,(M)LLM文献においてこれまで未発見であった言語間共用人間の量子化の3つの重要な特徴について考察する。
論文参考訳（メタデータ） (2025-11-11T11:30:21Z)
Perception of Visual Content: Differences Between Humans and Foundation Models [4.251488927334905]
本研究では,多様な社会経済的文脈における画像のヒト生成アノテーションとML生成アノテーションの類似性について検討した。我々は、知覚の違いを理解し、コンテンツ解釈における潜在的なバイアスを特定することを目的としている。
論文参考訳（メタデータ） (2024-11-28T07:37:04Z)
Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。 VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2024-11-27T01:55:08Z)
Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文参考訳（メタデータ） (2024-11-21T13:09:36Z)
Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。グループ化されたサブワードの検査では様々な意味的類似性を示します
論文参考訳（メタデータ） (2024-11-07T08:38:32Z)
Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。 AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文参考訳（メタデータ） (2024-11-04T21:05:01Z)
Are LLMs Models of Distributional Semantics? A Case Study on Quantifiers [14.797001158310092]
分布意味論モデルは真理条件推論や記号処理に苦しむ。期待とは対照的に、LSMは正確な量化器とあいまいな量化器の人間の判断とより密接に一致している。
論文参考訳（メタデータ） (2024-10-17T19:28:35Z)
Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。我々は,VLM予測値と人間定義属性分布の対応関係を解析した。複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文参考訳（メタデータ） (2024-03-15T18:37:15Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Exploiting Unlabeled Data with Vision and Language Models for Object Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文参考訳（メタデータ） (2022-07-18T21:47:15Z)
Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文参考訳（メタデータ） (2021-12-16T05:36:08Z)
A Comparative Study of Lexical Substitution Approaches based on Neural Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文参考訳（メタデータ） (2020-05-29T18:43:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。