論文の概要: The ConceptARC Benchmark: Evaluating Understanding and Generalization in
the ARC Domain
- arxiv url: http://arxiv.org/abs/2305.07141v1
- Date: Thu, 11 May 2023 21:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:36:10.400902
- Title: The ConceptARC Benchmark: Evaluating Understanding and Generalization in
the ARC Domain
- Title(参考訳): ConceptARCベンチマーク:ARCドメインの理解と一般化を評価する
- Authors: Arseny Moskvichev, Victor Vikram Odouard, and Melanie Mitchell
- Abstract要約: ARC(Abstraction and Reasoning Corpus)の詳細な評価ベンチマークについて述べる。
特に、ARCドメインで公開された新しいベンチマークであるConceptARCについて説明する。
本ベンチマークでは,3つのマシンソルバとともに,人体実験結果について報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The abilities to form and abstract concepts is key to human intelligence, but
such abilities remain lacking in state-of-the-art AI systems. There has been
substantial research on conceptual abstraction in AI, particularly using
idealized domains such as Raven's Progressive Matrices and Bongard problems,
but even when AI systems succeed on such problems, the systems are rarely
evaluated in depth to see if they have actually grasped the concepts they are
meant to capture.
In this paper we describe an in-depth evaluation benchmark for the
Abstraction and Reasoning Corpus (ARC), a collection of few-shot abstraction
and analogy problems developed by Chollet [2019]. In particular, we describe
ConceptARC, a new, publicly available benchmark in the ARC domain that
systematically assesses abstraction and generalization abilities on a number of
basic spatial and semantic concepts. ConceptARC differs from the original ARC
dataset in that it is specifically organized around "concept groups" -- sets of
problems that focus on specific concepts and that are vary in complexity and
level of abstraction. We report results on testing humans on this benchmark as
well as three machine solvers: the top two programs from a 2021 ARC competition
and OpenAI's GPT-4. Our results show that humans substantially outperform the
machine solvers on this benchmark, showing abilities to abstract and generalize
concepts that are not yet captured by AI systems. We believe that this
benchmark will spur improvements in the development of AI systems for
conceptual abstraction and in the effective evaluation of such systems.
- Abstract(参考訳): 概念を形成、抽象化する能力は人間の知性にとって重要だが、最先端のAIシステムにはそのような能力がない。
特にRavenのProgressive MatricesやBongardのような理想化されたドメインを使って、AIの概念の抽象化についてかなりの研究がなされてきたが、AIシステムがそのような問題に成功しても、システムが実際に捉える概念を実際に把握したかどうかを深く評価することはめったにない。
本稿では,chollet [2019] が開発した数発の抽象化とアナロジー問題の集合であるabstract and reasoning corpus (arc) の詳細な評価ベンチマークについて述べる。
具体的には,多くの基本的な空間的および意味的概念の抽象化と一般化能力を体系的に評価する,ARCドメインで新たに公開されたベンチマークであるConceptARCについて述べる。
conceptarcはオリジナルのarcデータセットと異なり、特定の概念にフォーカスし、複雑さや抽象化のレベルが異なる問題の集合である「概念グループ」を中心に特別に構成されている。
2021年のarcコンペティションとopenaiのgpt-4の2つのプログラムで、このベンチマークで人間をテストした結果を報告します。
我々の結果は、人間がこのベンチマークでマシンソルバを著しく上回り、AIシステムがまだ捉えていない概念を抽象化し、一般化する能力を示していることを示している。
このベンチマークは、概念的抽象化のためのAIシステム開発や、そのようなシステムの有効性評価の改善に拍車をかけるだろうと考えている。
関連論文リスト
- Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Levels of AGI: Operationalizing Progress on the Path to AGI [67.02053749878078]
このフレームワークは、AGIパフォーマンス、一般性、自律性のレベルを導入します。
このフレームワークが、自動運転のレベルと同等の方法で有効になることを願っています。
論文 参考訳(メタデータ) (2023-11-04T17:44:58Z) - General Purpose Artificial Intelligence Systems (GPAIS): Properties,
Definition, Taxonomy, Societal Implications and Responsible Governance [16.030931070783637]
汎用人工知能システム(GPAIS)は、これらのAIシステムを指すものとして定義されている。
これまで、人工知能の可能性は、まるで人間であるかのように知的タスクを実行するのに十分強力であり、あるいはそれを改善することさえ可能であり、いまだに願望、フィクションであり、我々の社会にとっての危険であると考えられてきた。
本研究は,GPAISの既存の定義について論じ,その特性や限界に応じて,GPAISの種類間で段階的な分化を可能にする新しい定義を提案する。
論文 参考訳(メタデータ) (2023-07-26T16:35:48Z) - Abstract Visual Reasoning Enabled by Language [8.627180519837657]
ARCを解くための一般学習型フレームワークを提案する。
タスクをビジョンから言語領域に変換することに集中しています。
言語と視覚のこの構成により、各段階で事前訓練されたモデルを利用することができる。
論文 参考訳(メタデータ) (2023-03-07T17:52:46Z) - Core and Periphery as Closed-System Precepts for Engineering General
Intelligence [62.997667081978825]
AIシステムの入力が出力から独立するかどうかは不明であり、従ってAIシステムが従来のコンポーネントとして扱われるかどうかは不明である。
本稿では, 工学的汎用知能は, コアと周辺と呼ばれる, 新たな汎用システム規範を必要とすることを示唆する。
論文 参考訳(メタデータ) (2022-08-04T18:20:25Z) - Evaluating Understanding on Conceptual Abstraction Benchmarks [0.0]
AIの長期的な目標は、人間のような方法で概念を理解するシステムを構築することである。
概念を理解するには、さまざまなコンテキストでそれを使う能力が必要である、と私たちは主張する。
我々の概念に基づく評価アプローチは、従来のテストセットが隠したはずのAIシステムに関する情報を明らかにする。
論文 参考訳(メタデータ) (2022-06-28T17:52:46Z) - Conceptual Modeling and Artificial Intelligence: Mutual Benefits from
Complementary Worlds [0.0]
これまでのところ、主に分離されたCMとAIの分野にアプローチする2つの交差点に取り組むことに興味があります。
このワークショップでは、(一)概念モデリング(CM)がAIにどのような貢献ができるのか、(一)その逆の方法で、多様体相互利益を実現することができるという仮定を取り入れている。
論文 参考訳(メタデータ) (2021-10-16T18:42:09Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Abstraction and Analogy-Making in Artificial Intelligence [0.0]
現在のAIシステムは、人間のような抽象化やアナロジーを形成する能力に近づきません。
本稿では,記号的手法,深層学習,確率的プログラム誘導など,この目標に対するいくつかのアプローチの利点と限界についてレビューする。
論文 参考訳(メタデータ) (2021-02-22T00:12:48Z) - Towards an Interface Description Template for AI-enabled Systems [77.34726150561087]
再利用(Reuse)は、システムアーキテクチャを既存のコンポーネントでインスタンス化しようとする、一般的なシステムアーキテクチャのアプローチである。
現在、コンポーネントが当初目的としていたものと異なるシステムで運用する可搬性を評価するために必要な情報の選択をガイドするフレームワークは存在しない。
我々は、AI対応コンポーネントの主情報をキャプチャするインターフェイス記述テンプレートの確立に向けて、現在進行中の作業について述べる。
論文 参考訳(メタデータ) (2020-07-13T20:30:26Z) - A general framework for scientifically inspired explanations in AI [76.48625630211943]
我々は、AIシステムの説明を実装可能な一般的なフレームワークの理論的基盤として、科学的説明の構造の概念をインスタンス化する。
このフレームワークは、AIシステムの"メンタルモデル"を構築するためのツールを提供することを目的としている。
論文 参考訳(メタデータ) (2020-03-02T10:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。