論文の概要: Large-scale Generative AI Models Lack Visual Number Sense
- arxiv url: http://arxiv.org/abs/2402.03328v1
- Date: Tue, 9 Jan 2024 18:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 15:54:39.966807
- Title: Large-scale Generative AI Models Lack Visual Number Sense
- Title(参考訳): ビジュアルナンバーセンスを欠く大規模生成AIモデル
- Authors: Alberto Testolin, Kuinan Hou, Marco Zorzi
- Abstract要約: 人間は、数えなくても、視覚的なシーンの物体の数を簡単に判断できる。
生成型人工知能(AI)モデルでは、単純な視覚刺激で物体の数を確実に指定できるかどうかを検討した。
- 参考スコア(独自算出の注目度): 0.09208007322096533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can readily judge the number of objects in a visual scene, even
without counting, and such a skill has been documented in a variety of animal
species and in babies prior to language development and formal schooling.
Numerical judgments are error-free for small sets, while for larger collections
responses become approximate, with variability increasing proportionally to the
target number. This response pattern is observed for items of all kinds,
despite variation in object features (such as color or shape), suggesting that
our visual number sense relies on abstract representations of numerosity. Here,
we investigated whether generative Artificial Intelligence (AI) models based on
large-scale transformer architectures can reliably name the number of objects
in simple visual stimuli or generate images containing a target number of items
in the 1-10 range. Surprisingly, none of the foundation models considered
performed in a human-like way: They all made striking errors even with small
numbers, the response variability often did not increase in a systematic way,
and the pattern of errors varied with object category. Our findings demonstrate
that advanced AI systems still lack a basic ability that supports an intuitive
understanding of numbers, which in humans is foundational for numeracy and
mathematical development.
- Abstract(参考訳): 人間は、数えることなく、視覚シーンの物体の数を容易に判断することができ、そのようなスキルは、言語発達や正式な教育に先立って、様々な動物種や赤ちゃんに記録されている。
数値的な判断は小さな集合では誤りのないが、より大きな集合では応答が近似され、変数はターゲット数に比例して増加する。
この応答パターンは、オブジェクトの特徴(色や形状など)のばらつきにもかかわらず、あらゆる種類のアイテムで観察され、我々の視覚的な数字感覚は、数字の抽象的な表現に依存していることを示唆している。
本稿では,大規模トランスフォーマーアーキテクチャに基づく生成型人工知能(ai)モデルが,単純な視覚刺激でオブジェクト数を確実に命名できるか,あるいは1~10の範囲のターゲット数を含む画像を生成するかを検討した。
意外なことに、人間のような方法で実行されたと見なされる基礎モデルは、どれも小さな数であっても衝撃的なエラーを犯し、応答のばらつきはしばしば体系的な方法で増加せず、エラーのパターンはオブジェクトカテゴリによって異なる。
我々の研究結果は、高度なAIシステムには数値の直感的な理解を支える基本的な能力がないことを示している。
関連論文リスト
- Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Intriguing properties of generative classifiers [14.57861413242093]
我々は、テキストから画像へのモデルを分類器に変換する生成モデリングの進歩の上に構築する。
Imagenでは99%)、人間レベルのアウト・オブ・ディストリビューションの精度、人間の分類エラーと最先端のアライメントに近い、記録破りの人間のような形状バイアスを示しています。
以上の結果から,人間の物体認識のモデル化のパラダイムは差別的推論であるが,ゼロショット生成モデルは人間の物体認識データを驚くほどよく近似していることが示唆された。
論文 参考訳(メタデータ) (2023-09-28T18:19:40Z) - Compositional diversity in visual concept learning [18.907108368038216]
人間は構成性を活用して、新しい概念を効率的に学習し、親しみのある部分がどのように結合して新しい物体を形成するかを理解する。
そこで本研究では,豊かな関係構造を持つ「異星人」の分類・生成方法について考察する。
我々は,候補となる視覚図を生成するための最適なプログラムを探索するベイズプログラム誘導モデルを開発した。
論文 参考訳(メタデータ) (2023-05-30T19:30:50Z) - Factored World Models for Zero-Shot Generalization in Robotic
Manipulation [7.258229016768018]
我々は、オブジェクト指向世界モデルを用いてロボットピック・アンド・プレイス・タスクを一般化することを学ぶ。
グラフニューラルネットワークの残差スタックを使用して、ノードとエッジの両方のニューラルネットワークにおいて、複数のレベルのアクション情報を受信する。
モデルアンサンブルを用いて、最大12個のピック・アンド・プレイス・アクションを含むタスクを検索で計画できることが示される。
論文 参考訳(メタデータ) (2022-02-10T21:26:11Z) - Learning Online Visual Invariances for Novel Objects via Supervised and
Self-Supervised Training [0.76146285961466]
本稿では,複数の変換を行う合成3Dオブジェクトの画像を認識するためのトレーニングモデルにより,標準的なCNNが人間のようなオンライン不変性をサポートできるかどうかを評価する。
変換対象を訓練した標準教師付きCNNは,10クラスから50個のオブジェクトを抽出して訓練しても,新しいクラスで強い不変性を得ることができることを示す。
論文 参考訳(メタデータ) (2021-10-04T14:29:43Z) - Systematic Evaluation of Causal Discovery in Visual Model Based
Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。
因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。
本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文 参考訳(メタデータ) (2021-07-02T05:44:56Z) - A Number Sense as an Emergent Property of the Manipulating Brain [19.122716783575427]
本研究では,非教師なしの日常体験を通じて,多くの感覚を身につける人間の能力を再現するモデルを提案する。
教師の監督なくしてそのような数感覚の獲得が可能かどうかは不明である。
その結果,無関係な行動予測のタスクを学習することで,予期せぬイメージ表現が出現し,数値の知覚と表現を先導する規則性を示すことがわかった。
論文 参考訳(メタデータ) (2020-12-08T00:37:35Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - A robot that counts like a child: a developmental model of counting and
pointing [69.26619423111092]
実物を数えることができる新しい神経ロボティクスモデルを導入する。
このモデルにより,エンボディメントと数値認識の相互作用を調べることができる。
トレーニングされたモデルは、アイテムのセットをカウントすることができ、同時にそれらを指し示します。
論文 参考訳(メタデータ) (2020-08-05T21:06:27Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。