論文の概要: The ARC of Progress towards AGI: A Living Survey of Abstraction and Reasoning
- arxiv url: http://arxiv.org/abs/2603.13372v1
- Date: Mon, 09 Mar 2026 23:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.79651
- Title: The ARC of Progress towards AGI: A Living Survey of Abstraction and Reasoning
- Title(参考訳): AGIに向けた進歩のARC--抽象と推論の生きた調査
- Authors: Sahar Vahdati, Andrei Aioanei, Haridhra Suresh, Jens Lehmann,
- Abstract要約: ARC-AGI(Abstraction and Reasoning Corpus)は、AIにおける流体インテリジェンスの重要なベンチマークとなっている。
この調査では、3つのベンチマークバージョンにわたる82のアプローチとARC Prize 2024-2025のコンペティションに関する最初の世代間分析を行った。
- 参考スコア(独自算出の注目度): 5.870990919877351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Abstraction and Reasoning Corpus (ARC-AGI) has become a key benchmark for fluid intelligence in AI. This survey presents the first cross-generation analysis of 82 approaches across three benchmark versions and the ARC Prize 2024-2025 competitions. Our central finding is that performance degradation across versions is consistent across all paradigms: program synthesis, neuro-symbolic, and neural approaches all exhibit 2-3x drops from ARC-AGI-1 to ARC-AGI-2, indicating fundamental limitations in compositional generalization. While systems now reach 93.0% on ARC-AGI-1 (Opus 4.6), performance falls to 68.8% on ARC-AGI-2 and 13% on ARC-AGI-3, as humans maintain near-perfect accuracy across all versions. Cost fell 390x in one year (o3's $4,500/task to GPT-5.2's $12/task), although this largely reflects reduced test-time parallelism. Trillion-scale models vary widely in score and cost, while Kaggle-constrained entries (660M-8B) achieve competitive results, aligning with Chollet's thesis that intelligence is skill-acquisition efficiency. Test-time adaptation and refinement loops emerge as critical success factors, while compositional reasoning and interactive learning remain unsolved. ARC Prize 2025 winners needed hundreds of thousands of synthetic examples to reach 24% on ARC-AGI-2, confirming that reasoning remains knowledge-bound. This first release of the ARC-AGI Living Survey captures the field as of February 2026, with updates at https://nimi-ai.com/arc-survey/
- Abstract(参考訳): ARC-AGI(Abstraction and Reasoning Corpus)は、AIにおける流体インテリジェンスの重要なベンチマークとなっている。
この調査では、3つのベンチマークバージョンにわたる82のアプローチとARC Prize 2024-2025のコンペティションに関する最初の世代間分析を行った。
プログラム合成, ニューラルシンボリック, ニューラルアプローチはすべてARC-AGI-1からARC-AGI-2への2~3倍の低下を示し, 構成一般化の基本的な限界を示している。
ARC-AGI-1(Opus 4.6)では93.0%に達するが、ARC-AGI-2では68.8%、ARC-AGI-3では13%に低下する。
コストは1年で390倍(o3は4,500ドル、GPT-5.2は12ドル)低下した。
トリリオンスケールのモデルはスコアとコストで大きく異なるが、Kaggle-constrained entry (660M-8B) は、知性はスキル獲得効率であるというチョレットの主張と一致している。
テスト時間適応と改善ループは重要な成功要因として現れ、構成的推論と対話的学習は未解決のままである。
2025年のARC賞受賞者は、ARC-AGI-2で24%に達するために何十万もの合成サンプルを必要とした。
ARC-AGI Living Surveyの最初のリリースは2026年2月で、https://nimi-ai.com/arc-survey/で更新された。
関連論文リスト
- ARC Prize 2025: Technical Report [0.45671221781968335]
ARC-AGIベンチマークシリーズは、新規タスクにおける数ショットの一般化の重要な指標である。
2025年の世界大会は、新たにリリースされたARC-AGI-2データセットをターゲットにした。
2025年の定義テーマは改良ループの出現である。
論文 参考訳(メタデータ) (2026-01-15T23:23:56Z) - Vector Symbolic Algebras for the Abstraction and Reasoning Corpus [1.2031796234206134]
ARC-AGIは、数発の流体インテリジェンスベンチマークである。
認知学的に妥当なARC-AGIソルバを提案する。
システム1の直観とシステム2の推論を統合する。
論文 参考訳(メタデータ) (2025-11-11T20:07:50Z) - Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems [0.03431023404301193]
ARC-AGI-2は、前者の入出力ペアタスクフォーマットを保持し、研究者の連続性を保証する。
それは、抽象的推論と問題解決能力を評価するために特別に設計された、新しくキュレーションされ拡張された一連のタスクを含んでいる。
ARC-AGI-2は、より汎用的で人間らしいAI能力への進歩を厳格に測定するための次世代ツールとして機能することを目指している。
論文 参考訳(メタデータ) (2025-05-17T04:34:48Z) - ARC Prize 2024: Technical Report [0.036355666825174035]
2024年12月現在、ARC-AGIベンチマークは5歳であり、まだ未完成である。
今年のARC Prizeは、新しいアイデアを刺激し、AGIに向けたオープンな進歩を促進するグローバルなコンペティションです。
その結果、ARC-AGIの個人評価の最先端スコアは33%から55.5%に増加した。
論文 参考訳(メタデータ) (2024-12-05T20:40:28Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。