論文の概要: Are Deep Neural Networks SMARTer than Second Graders?
- arxiv url: http://arxiv.org/abs/2212.09993v1
- Date: Tue, 20 Dec 2022 04:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:43:58.565425
- Title: Are Deep Neural Networks SMARTer than Second Graders?
- Title(参考訳): ディープニューラルネットワークは2年生よりスマートか?
- Authors: Anoop Cherian, Kuan-Chuan Peng, Suhas Lohit, Kevin Smith, Joshua B.
Tenenbaum
- Abstract要約: 6~8歳児を対象としたビジュオ言語パズルの解法におけるニューラルネットワークの有効性について検討した。
我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵と質問で構成されており、それらの解には算術、代数学、空間推論など、いくつかの基本的なスキルが混在している必要がある。
実験の結果,強力な深層モデルでは,学習したパズルに対して妥当な性能が得られたが,一般化のために解析すると,ランダムな精度に劣らないことがわかった。
- 参考スコア(独自算出の注目度): 69.21811621463007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent times have witnessed an increasing number of applications of deep
neural networks towards solving tasks that require superior cognitive
abilities, e.g., playing Go, generating art, question answering (such as
ChatGPT), etc. Such a dramatic progress raises the question: how generalizable
are neural networks in solving problems that demand broad skills? To answer
this question, we propose SMART: a Simple Multimodal Algorithmic Reasoning Task
and the associated SMART-101 dataset, for evaluating the abstraction,
deduction, and generalization abilities of neural networks in solving
visuo-linguistic puzzles designed specifically for children in the 6-8 age
group. Our dataset consists of 101 unique puzzles; each puzzle comprises a
picture and a question, and their solution needs a mix of several elementary
skills, including arithmetic, algebra, and spatial reasoning, among others. To
scale our dataset towards training deep neural networks, we programmatically
generate entirely new instances for each puzzle while retaining their solution
algorithm. To benchmark the performance on the SMART-101 dataset, we propose a
vision and language meta-learning model using varied state-of-the-art backbone
neural networks. Our experiments reveal that while powerful deep models offer
reasonable performances on puzzles that they are trained on, they are not
better than random accuracy when analyzed for generalization. We also evaluate
the recent ChatGPT large language model on a subset of our dataset and find
that while ChatGPT produces convincing reasoning abilities, the answers are
often incorrect.
- Abstract(参考訳): 最近では、高度な認知能力を必要とする課題(例えば、囲い込み、アートの生成、質問応答(チャットgptなど))を解決するためのディープニューラルネットワークの応用が増えている。
幅広いスキルを必要とする問題を解決する上で、ニューラルネットワークはどの程度一般化可能か?
この質問に答えるために、ニューラルネットワークの抽象化、推論、一般化能力を評価するための、単純なマルチモーダルアルゴリズム推論タスクと関連するsmart-101データセットを提案する。
私たちのデータセットは101の独特なパズルで構成されており、それぞれのパズルは絵と質問で構成されており、それらの解には算術、代数、空間的推論などいくつかの基本的なスキルが必要です。
深層ニューラルネットワークのトレーニングに向けてデータセットをスケールするために、ソリューションアルゴリズムを維持しながら、プログラムによってパズル毎に完全に新しいインスタンスを生成します。
SMART-101データセットのパフォーマンスをベンチマークするために、様々な最先端のバックボーンニューラルネットワークを用いたビジョンと言語メタラーニングモデルを提案する。
実験の結果,強力な深層モデルは,学習したパズルに対して適切な性能を与えるが,一般化のために解析すると,ランダムな精度よりも優れていることがわかった。
また、最近のChatGPT大言語モデルをデータセットのサブセットで評価した結果、ChatGPTは有意義な推論能力を生み出すが、答えはしばしば誤りであることがわかった。
関連論文リスト
- Neural networks for abstraction and reasoning: Towards broad
generalization in machines [3.165509887826658]
我々は Abstraction & Reasoning Corpus (ARC) を解くための新しいアプローチについて検討する。
本研究では,DreamCoderのニューロシンボリック推論解法をARCに適用する。
我々は、DreamCoderがARCタスクを解くことを可能にするPeARL(Perceptual Abstraction and Reasoning Language)言語を提示する。
ARCに関する今後の研究を容易にするために、arckit Pythonライブラリを公開しています。
論文 参考訳(メタデータ) (2024-02-05T20:48:57Z) - Bridging Logic and Learning: A Neural-Symbolic Approach for Enhanced
Reasoning in Neural Models (ASPER) [0.13053649021965597]
本稿では,学習推論タスクにおけるニューラルモデルの性能向上を目的としたアプローチを提案する。
これを実現するために、Answer Set Programmingソルバとドメイン固有の専門知識を統合する。
モデルは、トレーニングとテストのためにたった12のパズルを使用して、スドゥークパズルの解法を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-12-18T19:06:00Z) - The Clock and the Pizza: Two Stories in Mechanistic Explanation of
Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。
単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文 参考訳(メタデータ) (2023-06-30T17:59:13Z) - Pointer Value Retrieval: A new benchmark for understanding the limits of
neural network generalization [40.21297628440919]
我々は、ニューラルネットワークの一般化の限界を探求する新しいベンチマーク、Pointer Value Retrieval(PVR)タスクを導入する。
PVRタスクは視覚的および記号的な入力で構成され、それぞれが様々な難易度を持つ。
このタスク構造が一般化を理解するための豊富なテストベッドを提供することを示す。
論文 参考訳(メタデータ) (2021-07-27T03:50:31Z) - Thinking Deeply with Recurrence: Generalizing from Easy to Hard
Sequential Reasoning Problems [51.132938969015825]
我々は、リカレントネットワークは、非リカレントディープモデルの振る舞いを詳細にエミュレートする能力を有することを観察する。
再帰ステップの少ない単純な迷路を解くように訓練された再帰ネットワークは、推論中に追加の繰り返しを実行するだけで、より複雑な問題を解決することができる。
論文 参考訳(メタデータ) (2021-02-22T14:09:20Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z) - Characterizing the Weight Space for Different Learning Models [0.0]
ディープラーニングは、インテリジェントマシンの開発において、主要な研究領域の1つになっている。
本稿では,3つのサブセットの観点から,ディープニューラルネットワークの解空間を特徴付ける。
敵の攻撃は一般にディープニューラルネットワークよりも連想記憶モデルに対して成功していないことを示す。
論文 参考訳(メタデータ) (2020-06-04T09:30:29Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。