論文の概要: Visual Enumeration is Challenging for Large-scale Generative AI
- arxiv url: http://arxiv.org/abs/2402.03328v2
- Date: Fri, 3 May 2024 15:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 17:37:33.022827
- Title: Visual Enumeration is Challenging for Large-scale Generative AI
- Title(参考訳): 大規模生成AIのためのビジュアル列挙
- Authors: Alberto Testolin, Kuinan Hou, Marco Zorzi,
- Abstract要約: 人間は、数えなくても、視覚的なシーンの物体の数を簡単に判断できる。
大規模生成人工知能(AI)システムに人間のような数感覚があるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.08192907805418582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can readily judge the number of objects in a visual scene, even without counting, and such a skill has been documented in many animal species and babies prior to language development and formal schooling. Numerical judgments are error-free for small sets, while for larger collections responses become approximate, with variability increasing proportionally to the target number. This response pattern is observed for items of all kinds, despite variation in object features (such as color or shape), suggesting that our visual number sense relies on abstract representations of numerosity. Here, we investigate whether large-scale generative Artificial Intelligence (AI) systems have a human-like number sense, which should allow them to reliably name the number of objects in simple visual stimuli or generate images containing a target number of items in the 1-10 range. Surprisingly, most of the foundation models considered have a poor number sense: They make striking errors even with small numbers, the response variability does not increase in a systematic way, and the pattern of errors depends on object category. Only the most recent proprietary systems exhibit signatures of a visual number sense. Our findings demonstrate that having an intuitive visual understanding of number remains challenging for foundation models, which in turn might be detrimental to the perceptual grounding of numeracy that in humans is crucial for mathematical learning.
- Abstract(参考訳): 人間は、数えることなく、視覚的なシーンの物体の数を簡単に判断することができ、言語発達や正式な教育の前に多くの動物種や赤ちゃんにそのようなスキルが記録されている。
数値的な判断は小さな集合では誤りのないが、より大きな集合では応答が近似され、変数はターゲット数に比例して増加する。
この応答パターンは、物体の特徴(色や形状など)の変化にもかかわらず、あらゆる種類の項目に対して観察され、我々の視覚的数感覚は数奇性の抽象的表現に依存していることを示唆している。
そこで本研究では,大規模生成人工知能(AI)システムにおいて,簡単な視覚刺激で対象物を確実に命名したり,対象物数を含む画像を1~10の範囲で生成することができるような,人間のような数感覚を持つかどうかを検討する。
小さい数であっても衝撃的なエラーを犯し、応答のばらつきは体系的な方法では増加せず、エラーのパターンはオブジェクトカテゴリに依存します。
最新のプロプライエタリなシステムだけが、視覚的数感覚のシグネチャを示す。
本研究は, 数値の直観的理解は基礎モデルでは依然として困難であり, 数学的学習に欠かせない数列の知覚的基礎化に寄与する可能性が示唆された。
関連論文リスト
- Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision [0.08192907805418582]
自然の視覚的な場面では、異なる数列の出現頻度は、電力法分布に従うことを示す。
本研究では, 連続度と数値の相関構造が, データセット, シーンタイプ間で安定であることを示す。
論文 参考訳(メタデータ) (2024-09-17T09:49:29Z) - Evaluating Numerical Reasoning in Text-to-Image Models [16.034479049513582]
難易度が異なる数値推論課題におけるテキスト・ツー・イメージ・モデルの評価を行った。
もっとも先進的なモデルでさえ、初歩的な数値スキルしか持たないことを示す。
数値推論評価のための新しいベンチマークであるGeckoNumにプロンプト、生成された画像、人間のアノテーションをバンドルする。
論文 参考訳(メタデータ) (2024-06-20T22:56:31Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - WinoViz: Probing Visual Properties of Objects Under Different States [39.92628807477848]
本稿では,異なる文脈や状態下でのオブジェクトの異種視覚特性に関する言語モデルの推論能力を探索する,1,380の例からなるテキストのみの評価データセットを提案する。
我々の課題は、現実的な推論(意図した意味を表現)と視覚的知識推論を必要とするため、難しい。
また、タスクを解決するには、複数のステップの推論チェーンを必要とする、より難しいバージョンのマルチホップデータも提示します。
論文 参考訳(メタデータ) (2024-02-21T07:31:47Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - A Number Sense as an Emergent Property of the Manipulating Brain [16.186932790845937]
本研究では,人間が数量や量を操作する能力を習得し,発達させるメカニズムについて考察する。
我々のモデルは、シーン内のオブジェクトの数を推定する能力を得る。
我々は,簡単な事前学習作業から,数と量を持つ施設の重要側面を指導して学ぶことができると結論付けた。
論文 参考訳(メタデータ) (2020-12-08T00:37:35Z) - A robot that counts like a child: a developmental model of counting and
pointing [69.26619423111092]
実物を数えることができる新しい神経ロボティクスモデルを導入する。
このモデルにより,エンボディメントと数値認識の相互作用を調べることができる。
トレーニングされたモデルは、アイテムのセットをカウントすることができ、同時にそれらを指し示します。
論文 参考訳(メタデータ) (2020-08-05T21:06:27Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。