論文の概要: The ConceptARC Benchmark: Evaluating Understanding and Generalization in
the ARC Domain
- arxiv url: http://arxiv.org/abs/2305.07141v1
- Date: Thu, 11 May 2023 21:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:36:10.400902
- Title: The ConceptARC Benchmark: Evaluating Understanding and Generalization in
the ARC Domain
- Title(参考訳): ConceptARCベンチマーク:ARCドメインの理解と一般化を評価する
- Authors: Arseny Moskvichev, Victor Vikram Odouard, and Melanie Mitchell
- Abstract要約: ARC(Abstraction and Reasoning Corpus)の詳細な評価ベンチマークについて述べる。
特に、ARCドメインで公開された新しいベンチマークであるConceptARCについて説明する。
本ベンチマークでは,3つのマシンソルバとともに,人体実験結果について報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The abilities to form and abstract concepts is key to human intelligence, but
such abilities remain lacking in state-of-the-art AI systems. There has been
substantial research on conceptual abstraction in AI, particularly using
idealized domains such as Raven's Progressive Matrices and Bongard problems,
but even when AI systems succeed on such problems, the systems are rarely
evaluated in depth to see if they have actually grasped the concepts they are
meant to capture.
In this paper we describe an in-depth evaluation benchmark for the
Abstraction and Reasoning Corpus (ARC), a collection of few-shot abstraction
and analogy problems developed by Chollet [2019]. In particular, we describe
ConceptARC, a new, publicly available benchmark in the ARC domain that
systematically assesses abstraction and generalization abilities on a number of
basic spatial and semantic concepts. ConceptARC differs from the original ARC
dataset in that it is specifically organized around "concept groups" -- sets of
problems that focus on specific concepts and that are vary in complexity and
level of abstraction. We report results on testing humans on this benchmark as
well as three machine solvers: the top two programs from a 2021 ARC competition
and OpenAI's GPT-4. Our results show that humans substantially outperform the
machine solvers on this benchmark, showing abilities to abstract and generalize
concepts that are not yet captured by AI systems. We believe that this
benchmark will spur improvements in the development of AI systems for
conceptual abstraction and in the effective evaluation of such systems.
- Abstract(参考訳): 概念を形成、抽象化する能力は人間の知性にとって重要だが、最先端のAIシステムにはそのような能力がない。
特にRavenのProgressive MatricesやBongardのような理想化されたドメインを使って、AIの概念の抽象化についてかなりの研究がなされてきたが、AIシステムがそのような問題に成功しても、システムが実際に捉える概念を実際に把握したかどうかを深く評価することはめったにない。
本稿では,chollet [2019] が開発した数発の抽象化とアナロジー問題の集合であるabstract and reasoning corpus (arc) の詳細な評価ベンチマークについて述べる。
具体的には,多くの基本的な空間的および意味的概念の抽象化と一般化能力を体系的に評価する,ARCドメインで新たに公開されたベンチマークであるConceptARCについて述べる。
conceptarcはオリジナルのarcデータセットと異なり、特定の概念にフォーカスし、複雑さや抽象化のレベルが異なる問題の集合である「概念グループ」を中心に特別に構成されている。
2021年のarcコンペティションとopenaiのgpt-4の2つのプログラムで、このベンチマークで人間をテストした結果を報告します。
我々の結果は、人間がこのベンチマークでマシンソルバを著しく上回り、AIシステムがまだ捉えていない概念を抽象化し、一般化する能力を示していることを示している。
このベンチマークは、概念的抽象化のためのAIシステム開発や、そのようなシステムの有効性評価の改善に拍車をかけるだろうと考えている。
関連論文リスト
- A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Contrastive Sparse Autoencoders for Interpreting Planning of Chess-Playing Agents [0.0]
本研究では,一対のゲームトラジェクトリを研究するために,CSAE(Sparse Autoencoder)を提案する。
CSAEを用いて,チェスエージェントの計画に意味のある概念を抽出し,解釈することができる。
論文 参考訳(メタデータ) (2024-06-06T12:57:31Z) - Artificial General Intelligence (AGI)-Native Wireless Systems: A Journey Beyond 6G [58.440115433585824]
デジタルツイン(DT)のようなサービスをサポートする将来の無線システムの構築は、メタサーフェスのような従来の技術への進歩を通じて達成することが困難である。
人工知能(AI)ネイティブネットワークは、無線技術のいくつかの制限を克服することを約束する一方で、開発は依然としてニューラルネットワークのようなAIツールに依存している。
本稿では、AIネイティブ無線システムの概念を再考し、それらを人工知能(AGI)ネイティブシステムに変換するために必要な共通感覚を取り入れた。
論文 参考訳(メタデータ) (2024-04-29T04:51:05Z) - Abstract Visual Reasoning Enabled by Language [8.627180519837657]
ARCを解くための一般学習型フレームワークを提案する。
タスクをビジョンから言語領域に変換することに集中しています。
言語と視覚のこの構成により、各段階で事前訓練されたモデルを利用することができる。
論文 参考訳(メタデータ) (2023-03-07T17:52:46Z) - Core and Periphery as Closed-System Precepts for Engineering General
Intelligence [62.997667081978825]
AIシステムの入力が出力から独立するかどうかは不明であり、従ってAIシステムが従来のコンポーネントとして扱われるかどうかは不明である。
本稿では, 工学的汎用知能は, コアと周辺と呼ばれる, 新たな汎用システム規範を必要とすることを示唆する。
論文 参考訳(メタデータ) (2022-08-04T18:20:25Z) - Evaluating Understanding on Conceptual Abstraction Benchmarks [0.0]
AIの長期的な目標は、人間のような方法で概念を理解するシステムを構築することである。
概念を理解するには、さまざまなコンテキストでそれを使う能力が必要である、と私たちは主張する。
我々の概念に基づく評価アプローチは、従来のテストセットが隠したはずのAIシステムに関する情報を明らかにする。
論文 参考訳(メタデータ) (2022-06-28T17:52:46Z) - Conceptual Modeling and Artificial Intelligence: Mutual Benefits from
Complementary Worlds [0.0]
これまでのところ、主に分離されたCMとAIの分野にアプローチする2つの交差点に取り組むことに興味があります。
このワークショップでは、(一)概念モデリング(CM)がAIにどのような貢献ができるのか、(一)その逆の方法で、多様体相互利益を実現することができるという仮定を取り入れている。
論文 参考訳(メタデータ) (2021-10-16T18:42:09Z) - Abstraction and Analogy-Making in Artificial Intelligence [0.0]
現在のAIシステムは、人間のような抽象化やアナロジーを形成する能力に近づきません。
本稿では,記号的手法,深層学習,確率的プログラム誘導など,この目標に対するいくつかのアプローチの利点と限界についてレビューする。
論文 参考訳(メタデータ) (2021-02-22T00:12:48Z) - Towards an Interface Description Template for AI-enabled Systems [77.34726150561087]
再利用(Reuse)は、システムアーキテクチャを既存のコンポーネントでインスタンス化しようとする、一般的なシステムアーキテクチャのアプローチである。
現在、コンポーネントが当初目的としていたものと異なるシステムで運用する可搬性を評価するために必要な情報の選択をガイドするフレームワークは存在しない。
我々は、AI対応コンポーネントの主情報をキャプチャするインターフェイス記述テンプレートの確立に向けて、現在進行中の作業について述べる。
論文 参考訳(メタデータ) (2020-07-13T20:30:26Z) - A general framework for scientifically inspired explanations in AI [76.48625630211943]
我々は、AIシステムの説明を実装可能な一般的なフレームワークの理論的基盤として、科学的説明の構造の概念をインスタンス化する。
このフレームワークは、AIシステムの"メンタルモデル"を構築するためのツールを提供することを目的としている。
論文 参考訳(メタデータ) (2020-03-02T10:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。