論文の概要: ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems
- arxiv url: http://arxiv.org/abs/2505.11831v1
- Date: Sat, 17 May 2025 04:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.878782
- Title: ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems
- Title(参考訳): ARC-AGI-2:フロンティアAI推論システムの新たな挑戦
- Authors: Francois Chollet, Mike Knoop, Gregory Kamradt, Bryan Landers, Henry Pinkard,
- Abstract要約: ARC-AGI-2は、前者の入出力ペアタスクフォーマットを保持し、研究者の連続性を保証する。
それは、抽象的推論と問題解決能力を評価するために特別に設計された、新しくキュレーションされ拡張された一連のタスクを含んでいる。
ARC-AGI-2は、より汎用的で人間らしいAI能力への進歩を厳格に測定するための次世代ツールとして機能することを目指している。
- 参考スコア(独自算出の注目度): 0.03431023404301193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI), introduced in 2019, established a challenging benchmark for evaluating the general fluid intelligence of artificial systems via a set of unique, novel tasks only requiring minimal prior knowledge. While ARC-AGI has spurred significant research activity over the past five years, recent AI progress calls for benchmarks capable of finer-grained evaluation at higher levels of cognitive complexity. We introduce ARC-AGI-2, an upgraded version of the benchmark. ARC-AGI-2 preserves the input-output pair task format of its predecessor, ensuring continuity for researchers. It incorporates a newly curated and expanded set of tasks specifically designed to provide a more granular signal to assess abstract reasoning and problem-solving abilities at higher levels of fluid intelligence. To contextualize the difficulty and characteristics of ARC-AGI-2, we present extensive results from human testing, providing a robust baseline that highlights the benchmark's accessibility to human intelligence, yet difficulty for current AI systems. ARC-AGI-2 aims to serve as a next-generation tool for rigorously measuring progress towards more general and human-like AI capabilities.
- Abstract(参考訳): 2019年に導入されたARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)は、最小の事前知識しか必要としない、独特で斬新なタスクを通じて、人工システムの汎用流体知能を評価するための挑戦的なベンチマークを確立した。
ARC-AGIは過去5年間で重要な研究活動を加速してきたが、最近のAIの進歩は、認知の複雑さの高いレベルでよりきめ細かい評価が可能なベンチマークを求めている。
ベンチマークのアップグレード版であるARC-AGI-2を紹介する。
ARC-AGI-2は、前者の入出力ペアタスクフォーマットを保持し、研究者の連続性を保証する。
それは、より詳細な信号を提供し、より高度な流体知能で抽象的推論と問題解決能力を評価するために、新しくキュレートされ拡張された一連のタスクを組み込んでいる。
ARC-AGI-2の難易度と特徴を文脈的に把握するために、我々は、現在のAIシステムでは困難でありながら、ベンチマークの人間の知性へのアクセシビリティを強調した、堅牢なベースラインを提供する。
ARC-AGI-2は、より汎用的で人間らしいAI能力への進歩を厳格に測定するための次世代ツールとして機能することを目指している。
関連論文リスト
- ARC-NCA: Towards Developmental Solutions to the Abstraction and Reasoning Corpus [0.0]
ARC-NCAはARC-AGIベンチマークに取り組むための開発手法である。
開発ソリューションは、AIの問題解決能力を高めるための有望な道を提供するかもしれない。
論文 参考訳(メタデータ) (2025-05-13T17:55:43Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Understanding and Benchmarking Artificial Intelligence: OpenAI's o3 Is Not AGI [0.0]
OpenAIのo3は、インテリジェンスを測定するためのベンチマークであるARC-AGIで87.5%のハイスコアを達成した。
これにより,大規模言語モデル(LLM)に基づくシステム,特にo3は,人工知能(AGI)に対する知性や進歩を示すのか,という疑問が提起される。
論文 参考訳(メタデータ) (2025-01-13T16:28:01Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文 参考訳(メタデータ) (2024-06-05T08:55:02Z) - How Far Are We From AGI: Are LLMs All We Need? [15.705756259264932]
AGIは、ヒューマンインテリジェンスに匹敵する効率と有効性で、多様な現実世界のタスクを実行する能力で区別されている。
本稿では、AGIに必要な機能フレームワークを概説し、内部、インターフェース、システム次元を統合する。
AIの統合によるユビキタスな影響について、具体的な洞察を得るため、複数のドメインにおけるAGIに対する既存の課題と潜在的な経路を概説する。
論文 参考訳(メタデータ) (2024-05-16T17:59:02Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - The ConceptARC Benchmark: Evaluating Understanding and Generalization in
the ARC Domain [0.0]
ARC(Abstraction and Reasoning Corpus)の詳細な評価ベンチマークについて述べる。
特に、ARCドメインで公開された新しいベンチマークであるConceptARCについて説明する。
本ベンチマークでは,3つのマシンソルバとともに,人体実験結果について報告する。
論文 参考訳(メタデータ) (2023-05-11T21:06:39Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。