論文の概要: VAQUUM: Are Vague Quantifiers Grounded in Visual Data?
- arxiv url: http://arxiv.org/abs/2502.11874v1
- Date: Mon, 17 Feb 2025 15:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:15.723852
- Title: VAQUUM: Are Vague Quantifiers Grounded in Visual Data?
- Title(参考訳): VAQUUM: Vagueの量子化器はビジュアルデータに埋もれているか?
- Authors: Hugh Mee Wong, Rick Nouwen, Albert Gatt,
- Abstract要約: 視覚的文脈における曖昧な量化器の生成や判断において、視覚・言語モデル(VLM)が人間とどの程度互換性があるかを評価する。
我々は、合計1089枚の画像に対して、定量化されたステートメントに関する20300人の評価を含む新しいデータセットVAQUUMをリリースした。
- 参考スコア(独自算出の注目度): 2.075922248360944
- License:
- Abstract: Vague quantifiers such as "a few" and "many" are influenced by many contextual factors, including how many objects are present in a given context. In this work, we evaluate the extent to which vision-and-language models (VLMs) are compatible with humans when producing or judging the appropriateness of vague quantifiers in visual contexts. We release a novel dataset, VAQUUM, containing 20300 human ratings on quantified statements across a total of 1089 images. Using this dataset, we compare human judgments and VLM predictions using three different evaluation methods. Our findings show that VLMs, like humans, are influenced by object counts in vague quantifier use. However, we find significant inconsistencies across models in different evaluation settings, suggesting that judging and producing vague quantifiers rely on two different processes.
- Abstract(参考訳): 数」や「数」のような真空量化器は、与えられた文脈にどれだけのオブジェクトが存在するかなど、多くの文脈要因の影響を受けている。
本研究では,視覚的文脈における曖昧な量化器の適切性の生成・判断において,視覚・言語モデル(VLM)が人間とどの程度互換性があるかを評価する。
我々は、合計1089枚の画像から20300個の人間格付けを含む新しいデータセットVAQUUMをリリースした。
このデータセットを用いて,3つの異なる評価手法を用いて,人間の判断とVLM予測を比較した。
以上の結果から,VLMは人間と同様,不明瞭な定量化における対象数の影響が示唆された。
しかし、異なる評価設定のモデル間で大きな矛盾が生じており、あいまいな量化器の判断と生成が2つの異なるプロセスに依存することが示唆されている。
関連論文リスト
- VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Scope Ambiguities in Large Language Models [29.427341094882966]
自己回帰言語モデルの異なるバージョンがスコープ不明瞭な文をどのように扱うかを検討する。
我々は,約1000のユニークなスコープあいまいな文を含む新しいデータセットを提案する。
これらのデータセットを用いて、これらの文における曖昧さの意味にいくつかのモデルが敏感であることを示す。
論文 参考訳(メタデータ) (2024-04-05T18:01:02Z) - Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。
Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文 参考訳(メタデータ) (2024-03-26T16:10:21Z) - Naming, Describing, and Quantifying Visual Objects in Humans and LLMs [5.59181673439492]
視覚・言語大言語モデル(VLLM)を3つのカテゴリ(名詞・属性・量化子)で評価する。
我々は、VLLMsが人間の命名選好を世代毎に捉える能力について、様々な証拠を見出している。
論文 参考訳(メタデータ) (2024-03-11T17:20:12Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。