論文の概要: Visual Enumeration Remains Challenging for Multimodal Generative AI
- arxiv url: http://arxiv.org/abs/2402.03328v3
- Date: Mon, 28 Jul 2025 14:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.158777
- Title: Visual Enumeration Remains Challenging for Multimodal Generative AI
- Title(参考訳): マルチモーダル生成AIのためのビジュアル列挙
- Authors: Alberto Testolin, Kuinan Hou, Marco Zorzi,
- Abstract要約: 最先端のAIシステムでさえ、列挙スキルが非常に限られていることが観察されている。
一般的な視覚的質問応答モデル(BLIP, LLaVA, ViLT)と高度な画像テキスト(Gemini, GPT, Qwen)AIシステムを検討する。
解析の結果,最も先進的なモデルでさえ,単純な視覚刺激で対象物を確実に命名したり,対象物数を含む画像を生成することはできないことがわかった。
- 参考スコア(独自算出の注目度): 0.08192907805418582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many animal species can approximately judge the number of objects in a visual scene at a single glance, and humans can further determine the exact cardinality of a set by deploying systematic counting procedures. In contrast, it has been observed that even state-of-the-art AI systems have very limited enumeration skills. In this work, we propose two benchmark tasks inspired by cognitive science that allow to precisely evaluate the visual enumeration capabilities of multimodal foundation models, thereby providing an objective measure of their number sense and counting level. We consider popular visual question answering models (BLIP, LLaVA and ViLT) as well as advanced image-to-text (Gemini, GPT and Qwen) and text-to-image (DALL-E, FLUX and Stable Diffusion) AI systems. Our analyses show that even the most advanced models cannot reliably name the number of objects in simple visual stimuli or generate images containing a target number of items, as indexed by their low accuracy in both types of tasks. Especially for numbers outside the subitizing range, their responses are often far from the target numerosity, and, in stark contrast with human behavior, in many cases the distribution of errors depends on the object category. We also observe some striking mistakes with small numbers. Our findings demonstrate that developing an intuitive visual understanding of number remains challenging for AI models and that merely increasing model size might not be a viable strategy to promote the emergence of systematic counting skills. We release the full code of our benchmark to facilitate the evaluation of enumeration skills in future AI systems.
- Abstract(参考訳): 多くの動物種は、視覚的なシーンにおける物体の数を一目で判断することができ、人類は、体系的な数え上げ手順を配置することによって、集合の正確な濃度を決定できる。
対照的に、最先端のAIシステムでさえ、列挙スキルが非常に限られていることが観察されている。
本研究では,認知科学にインスパイアされた2つのベンチマークタスクを提案する。これにより,マルチモーダル基礎モデルの視覚列挙能力を正確に評価し,その数感覚と計数レベルを客観的に測定することができる。
一般的な視覚的質問応答モデル(BLIP, LLaVA, ViLT)と高度な画像テキスト(Gemini, GPT, Qwen)とテキスト画像(DALL-E, FLUX, 安定拡散)AIシステムを検討する。
解析の結果、最も先進的なモデルでさえ、両方のタスクにおいて低い精度でインデックス化されるように、単純な視覚刺激でオブジェクトの数を確実に指定したり、対象のアイテム数を含む画像を生成することはできないことがわかった。
特に減数範囲外の数では、その反応は対象の数値から遠ざかることが多く、人間の行動とは対照的に、多くの場合、誤差の分布は対象のカテゴリーに依存する。
また、小さな数字でいくつかの重大な誤りも観察する。
以上の結果から,AIモデルでは数値の直感的な視覚的理解は依然として困難であり,単にモデルのサイズを増大させるだけでは,体系的な数え上げスキルの出現を促進するための実行可能な戦略にはならない可能性が示唆された。
我々は、将来のAIシステムにおける列挙スキルの評価を容易にするために、ベンチマークの全コードをリリースする。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。
人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。
表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-06-06T17:06:25Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。
我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文 参考訳(メタデータ) (2025-03-13T20:13:39Z) - LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models [5.892066196730199]
大規模視覚言語モデル(LVLM)は、タスクの数え上げに苦慮していることが知られている。
多数のオブジェクトに対するLVLMのカウント能力を向上する,シンプルで効果的なベースライン手法を提案する。
このアプローチの有効性を,さまざまなデータセットやベンチマークで実証する。
論文 参考訳(メタデータ) (2024-12-01T05:50:22Z) - Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。
各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。
トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision [0.08192907805418582]
自然の視覚的な場面では、異なる数列の出現頻度は、電力法分布に従うことを示す。
本研究では, 連続度と数値の相関構造が, データセット, シーンタイプ間で安定であることを示す。
論文 参考訳(メタデータ) (2024-09-17T09:49:29Z) - A Sanity Check for AI-generated Image Detection [49.08585395873425]
我々はAI生成画像を検出するAI生成画像検出装置(AI生成画像検出装置)を提案する。
AIDEは最先端の手法を+3.5%、+4.6%改善した。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - Evaluating Numerical Reasoning in Text-to-Image Models [16.034479049513582]
難易度が異なる数値推論課題におけるテキスト・ツー・イメージ・モデルの評価を行った。
もっとも先進的なモデルでさえ、初歩的な数値スキルしか持たないことを示す。
数値推論評価のための新しいベンチマークであるGeckoNumにプロンプト、生成された画像、人間のアノテーションをバンドルする。
論文 参考訳(メタデータ) (2024-06-20T22:56:31Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - WinoViz: Probing Visual Properties of Objects Under Different States [39.92628807477848]
本稿では,異なる文脈や状態下でのオブジェクトの異種視覚特性に関する言語モデルの推論能力を探索する,1,380の例からなるテキストのみの評価データセットを提案する。
我々の課題は、現実的な推論(意図した意味を表現)と視覚的知識推論を必要とするため、難しい。
また、タスクを解決するには、複数のステップの推論チェーンを必要とする、より難しいバージョンのマルチホップデータも提示します。
論文 参考訳(メタデータ) (2024-02-21T07:31:47Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (2022-04-12T09:36:10Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - A Number Sense as an Emergent Property of the Manipulating Brain [16.186932790845937]
本研究では,人間が数量や量を操作する能力を習得し,発達させるメカニズムについて考察する。
我々のモデルは、シーン内のオブジェクトの数を推定する能力を得る。
我々は,簡単な事前学習作業から,数と量を持つ施設の重要側面を指導して学ぶことができると結論付けた。
論文 参考訳(メタデータ) (2020-12-08T00:37:35Z) - A robot that counts like a child: a developmental model of counting and
pointing [69.26619423111092]
実物を数えることができる新しい神経ロボティクスモデルを導入する。
このモデルにより,エンボディメントと数値認識の相互作用を調べることができる。
トレーニングされたモデルは、アイテムのセットをカウントすることができ、同時にそれらを指し示します。
論文 参考訳(メタデータ) (2020-08-05T21:06:27Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。