Fugu-MT 論文翻訳(概要): The ConceptARC Benchmark: Evaluating Understanding and Generalization in the ARC Domain

論文の概要: The ConceptARC Benchmark: Evaluating Understanding and Generalization in the ARC Domain

arxiv url: http://arxiv.org/abs/2305.07141v1
Date: Thu, 11 May 2023 21:06:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-15 14:36:10.400902
Title: The ConceptARC Benchmark: Evaluating Understanding and Generalization in the ARC Domain
Title（参考訳）: ConceptARCベンチマーク:ARCドメインの理解と一般化を評価する
Authors: Arseny Moskvichev, Victor Vikram Odouard, and Melanie Mitchell
Abstract要約: ARC(Abstraction and Reasoning Corpus)の詳細な評価ベンチマークについて述べる。特に、ARCドメインで公開された新しいベンチマークであるConceptARCについて説明する。本ベンチマークでは,3つのマシンソルバとともに,人体実験結果について報告する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The abilities to form and abstract concepts is key to human intelligence, but such abilities remain lacking in state-of-the-art AI systems. There has been substantial research on conceptual abstraction in AI, particularly using idealized domains such as Raven's Progressive Matrices and Bongard problems, but even when AI systems succeed on such problems, the systems are rarely evaluated in depth to see if they have actually grasped the concepts they are meant to capture. In this paper we describe an in-depth evaluation benchmark for the Abstraction and Reasoning Corpus (ARC), a collection of few-shot abstraction and analogy problems developed by Chollet [2019]. In particular, we describe ConceptARC, a new, publicly available benchmark in the ARC domain that systematically assesses abstraction and generalization abilities on a number of basic spatial and semantic concepts. ConceptARC differs from the original ARC dataset in that it is specifically organized around "concept groups" -- sets of problems that focus on specific concepts and that are vary in complexity and level of abstraction. We report results on testing humans on this benchmark as well as three machine solvers: the top two programs from a 2021 ARC competition and OpenAI's GPT-4. Our results show that humans substantially outperform the machine solvers on this benchmark, showing abilities to abstract and generalize concepts that are not yet captured by AI systems. We believe that this benchmark will spur improvements in the development of AI systems for conceptual abstraction and in the effective evaluation of such systems.
Abstract（参考訳）: 概念を形成、抽象化する能力は人間の知性にとって重要だが、最先端のAIシステムにはそのような能力がない。特にRavenのProgressive MatricesやBongardのような理想化されたドメインを使って、AIの概念の抽象化についてかなりの研究がなされてきたが、AIシステムがそのような問題に成功しても、システムが実際に捉える概念を実際に把握したかどうかを深く評価することはめったにない。本稿では,chollet [2019] が開発した数発の抽象化とアナロジー問題の集合であるabstract and reasoning corpus (arc) の詳細な評価ベンチマークについて述べる。具体的には,多くの基本的な空間的および意味的概念の抽象化と一般化能力を体系的に評価する,ARCドメインで新たに公開されたベンチマークであるConceptARCについて述べる。 conceptarcはオリジナルのarcデータセットと異なり、特定の概念にフォーカスし、複雑さや抽象化のレベルが異なる問題の集合である「概念グループ」を中心に特別に構成されている。 2021年のarcコンペティションとopenaiのgpt-4の2つのプログラムで、このベンチマークで人間をテストした結果を報告します。我々の結果は、人間がこのベンチマークでマシンソルバを著しく上回り、AIシステムがまだ捉えていない概念を抽象化し、一般化する能力を示していることを示している。このベンチマークは、概念的抽象化のためのAIシステム開発や、そのようなシステムの有効性評価の改善に拍車をかけるだろうと考えている。

関連論文リスト

Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.15522924153264]
ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。既存のほとんどの手法は、ARC-AGIを純粋にテキストによる推論タスクとして扱い、人間が視覚的抽象化に強く依存しているという事実を見落としている。 VLSR(Vision-Language Synergy Reasoning)とMSSC(Modality-Switch Self-Correction)の2つの相乗的戦略を導入する。本研究は,視覚的抽象と言語的推論を一体化させることが,汎用的な人間的な知性を実現するための重要なステップであることを示唆している。
論文参考訳（メタデータ） (2025-11-19T18:59:04Z)
A Definition of AGI [208.25193480759026]
人工知能の具体的な定義の欠如は、今日の専門的なAIと人間レベルの認知のギャップを曖昧にしている。そこで本研究では,AGIを認知的多目的性と熟達度に適合するものとして,これに対応するための定量的枠組みを提案する。
論文参考訳（メタデータ） (2025-10-21T01:28:35Z)
Barbarians at the Gate: How AI is Upending Systems Research [58.95406995634148]
システム研究は、新しいパフォーマンス指向アルゴリズムの設計と評価に長年注力してきたが、AI駆動のソリューション発見には特に適している、と私たちは主張する。このアプローチをAI駆動システム研究(ADRS)と呼び、ソリューションを反復的に生成し、評価し、洗練する。我々の研究結果は、AI時代のシステム研究の実践に急激な適応の必要性と破壊的な可能性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-10-07T17:49:24Z)
The next question after Turing's question: Introducing the Grow-AI test [51.56484100374058]
本研究は,GROW-AIと呼ばれる人工知能評価の枠組みを拡張することを目的としている。 GROW-AIは、チューリングテストの自然な後継者である"Can Machine grow up? この作品の独創性は、人間の世界から人工知能への「成長」過程の概念的な変換にある。
論文参考訳（メタデータ） (2025-08-22T10:19:42Z)
ARC-NCA: Towards Developmental Solutions to the Abstraction and Reasoning Corpus [0.0]
ARC-NCAはARC-AGIベンチマークに取り組むための開発手法である。開発ソリューションは、AIの問題解決能力を高めるための有望な道を提供するかもしれない。
論文参考訳（メタデータ） (2025-05-13T17:55:43Z)
A Hashgraph-Inspired Consensus Mechanism for Reliable Multi-Model Reasoning [0.0]
大規模言語モデル(LLM)からの一貫性のない出力と幻覚は、信頼できるAIシステムにとって大きな障害となる。本稿では,分散台帳技術に触発された新たなコンセンサス機構を提案する。
論文参考訳（メタデータ） (2025-05-06T14:05:12Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
Interpretable Concept-based Deep Learning Framework for Multimodal Human Behavior Modeling [5.954573238057435]
EUの一般データ保護規則は、リスクの高いAIシステムが十分に解釈可能であることを要求している。既存の説明可能なメソッドは、しばしば解釈可能性とパフォーマンスを妥協する。我々は、新しく一般化可能なフレームワーク、すなわち注意誘導概念モデル(AGCM)を提案する。 AGCMは、予測につながる概念とそれらがどこに観察されるかを特定することによって、学習可能な概念的な説明を提供する。
論文参考訳（メタデータ） (2025-02-14T13:15:21Z)
A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-10-19T11:11:09Z)
On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、限られたデータから一般化された知識を学習することにより、目に見えない領域の認識と推論を目的としている。本稿では,ZSIRの最近の進歩を徹底的に研究し,今後の発展の基盤となるものについて述べる。
論文参考訳（メタデータ） (2024-08-09T05:49:21Z)
Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文参考訳（メタデータ） (2024-07-03T15:38:57Z)
Contrastive Sparse Autoencoders for Interpreting Planning of Chess-Playing Agents [0.0]
本研究では,一対のゲームトラジェクトリを研究するために,CSAE(Sparse Autoencoder)を提案する。 CSAEを用いて,チェスエージェントの計画に意味のある概念を抽出し,解釈することができる。
論文参考訳（メタデータ） (2024-06-06T12:57:31Z)
Artificial General Intelligence (AGI)-Native Wireless Systems: A Journey Beyond 6G [58.440115433585824]
デジタルツイン(DT)のようなサービスをサポートする将来の無線システムの構築は、メタサーフェスのような従来の技術への進歩を通じて達成することが困難である。人工知能(AI)ネイティブネットワークは、無線技術のいくつかの制限を克服することを約束する一方で、開発は依然としてニューラルネットワークのようなAIツールに依存している。本稿では、AIネイティブ無線システムの概念を再考し、それらを人工知能(AGI)ネイティブシステムに変換するために必要な共通感覚を取り入れた。
論文参考訳（メタデータ） (2024-04-29T04:51:05Z)
Abstract Visual Reasoning Enabled by Language [8.627180519837657]
ARCを解くための一般学習型フレームワークを提案する。タスクをビジョンから言語領域に変換することに集中しています。言語と視覚のこの構成により、各段階で事前訓練されたモデルを利用することができる。
論文参考訳（メタデータ） (2023-03-07T17:52:46Z)
Core and Periphery as Closed-System Precepts for Engineering General Intelligence [62.997667081978825]
AIシステムの入力が出力から独立するかどうかは不明であり、従ってAIシステムが従来のコンポーネントとして扱われるかどうかは不明である。本稿では, 工学的汎用知能は, コアと周辺と呼ばれる, 新たな汎用システム規範を必要とすることを示唆する。
論文参考訳（メタデータ） (2022-08-04T18:20:25Z)
Evaluating Understanding on Conceptual Abstraction Benchmarks [0.0]
AIの長期的な目標は、人間のような方法で概念を理解するシステムを構築することである。概念を理解するには、さまざまなコンテキストでそれを使う能力が必要である、と私たちは主張する。我々の概念に基づく評価アプローチは、従来のテストセットが隠したはずのAIシステムに関する情報を明らかにする。
論文参考訳（メタデータ） (2022-06-28T17:52:46Z)
Conceptual Modeling and Artificial Intelligence: Mutual Benefits from Complementary Worlds [0.0]
これまでのところ、主に分離されたCMとAIの分野にアプローチする2つの交差点に取り組むことに興味があります。このワークショップでは、(一)概念モデリング(CM)がAIにどのような貢献ができるのか、(一)その逆の方法で、多様体相互利益を実現することができるという仮定を取り入れている。
論文参考訳（メタデータ） (2021-10-16T18:42:09Z)
Abstraction and Analogy-Making in Artificial Intelligence [0.0]
現在のAIシステムは、人間のような抽象化やアナロジーを形成する能力に近づきません。本稿では,記号的手法,深層学習,確率的プログラム誘導など,この目標に対するいくつかのアプローチの利点と限界についてレビューする。
論文参考訳（メタデータ） (2021-02-22T00:12:48Z)
Towards an Interface Description Template for AI-enabled Systems [77.34726150561087]
再利用(Reuse)は、システムアーキテクチャを既存のコンポーネントでインスタンス化しようとする、一般的なシステムアーキテクチャのアプローチである。現在、コンポーネントが当初目的としていたものと異なるシステムで運用する可搬性を評価するために必要な情報の選択をガイドするフレームワークは存在しない。我々は、AI対応コンポーネントの主情報をキャプチャするインターフェイス記述テンプレートの確立に向けて、現在進行中の作業について述べる。
論文参考訳（メタデータ） (2020-07-13T20:30:26Z)
A general framework for scientifically inspired explanations in AI [76.48625630211943]
我々は、AIシステムの説明を実装可能な一般的なフレームワークの理論的基盤として、科学的説明の構造の概念をインスタンス化する。このフレームワークは、AIシステムの"メンタルモデル"を構築するためのツールを提供することを目的としている。
論文参考訳（メタデータ） (2020-03-02T10:32:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。