論文の概要: ARC Prize 2025: Technical Report
- arxiv url: http://arxiv.org/abs/2601.10904v1
- Date: Thu, 15 Jan 2026 23:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.305895
- Title: ARC Prize 2025: Technical Report
- Title(参考訳): ARC Prize 2025 技術報告
- Authors: François Chollet, Mike Knoop, Gregory Kamradt, Bryan Landers,
- Abstract要約: ARC-AGIベンチマークシリーズは、新規タスクにおける数ショットの一般化の重要な指標である。
2025年の世界大会は、新たにリリースされたARC-AGI-2データセットをターゲットにした。
2025年の定義テーマは改良ループの出現である。
- 参考スコア(独自算出の注目度): 0.45671221781968335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ARC-AGI benchmark series serves as a critical measure of few-shot generalization on novel tasks, a core aspect of intelligence. The ARC Prize 2025 global competition targeted the newly released ARC-AGI-2 dataset, which features greater task complexity compared to its predecessor. The Kaggle competition attracted 1,455 teams and 15,154 entries, with the top score reaching 24% on the ARC-AGI-2 private evaluation set. Paper submissions nearly doubled year-over-year to 90 entries, reflecting the growing research interest in fluid intelligence and abstract reasoning. The defining theme of 2025 is the emergence of the refinement loop -- a per-task iterative program optimization loop guided by a feedback signal. Refinement loops come in a variety of forms, in particular evolutionary program synthesis approaches and application-layer refinements to commercial AI systems. Such refinement loops are also possible in weight space, as evidenced by zero-pretraining deep learning methods which are now achieving competitive performance with remarkably small networks (7M parameters). In parallel, four frontier AI labs (Anthropic, Google DeepMind, OpenAI, and xAI) reported ARC-AGI performance in public model cards in 2025, establishing ARC-AGI as an industry standard benchmark for AI reasoning. However, our analysis indicates that current frontier AI reasoning performance remains fundamentally constrained to knowledge coverage, giving rise to new forms of benchmark contamination. In this paper, we survey the top-performing methods, examine the role of refinement loops in AGI progress, discuss knowledge-dependent overfitting, and preview ARC-AGI-3, which introduces interactive reasoning challenges that require exploration, planning, memory, goal acquisition, and alignment capabilities.
- Abstract(参考訳): ARC-AGIベンチマークシリーズは、インテリジェンスの中核的な側面である新しいタスクにおける数ショットの一般化の重要な指標として機能する。
ARC賞2025グローバルコンペティションは、新しいARC-AGI-2データセットをターゲットにしている。
カグルは1,455人のチームと15,154人のエントリーを集め、トップスコアはARC-AGI-2の個人評価セットで24%に達した。
論文は、流体インテリジェンスと抽象的推論に対する研究の関心の高まりを反映して、対前年比で約2倍から90件の論文を提出した。
2025年の定義テーマは、フィードバック信号によって導かれるタスクごとの反復的なプログラム最適化ループであるリファインメントループの出現である。
精製ループには様々な形態があり、特に進化的プログラム合成アプローチと商用AIシステムへのアプリケーション層改良がある。
このようなリファインメントループは重量空間でも可能であり、現在非常に小さなネットワーク(7Mパラメータ)と競合する性能を達成しているゼロプレトレーニングのディープラーニング手法によって証明されている。
並行して、4つのフロンティアAIラボ(Anthropic、Google DeepMind、OpenAI、xAI)が2025年にパブリックモデルカードでARC-AGIのパフォーマンスを報告し、AI推論の業界標準ベンチマークとしてARC-AGIを確立した。
しかし、我々の分析は、現在のフロンティアAI推論性能は、知識カバレッジに根本的な制約を課し、新しいタイプのベンチマーク汚染を引き起こすことを示唆している。
本稿では,AGIの進歩における改善ループの役割を考察し,知識に依存したオーバーフィッティングについて議論し,ARC-AGI-3を検証し,探索,計画,記憶,目標獲得,アライメント機能を必要とする対話型推論課題を紹介した。
関連論文リスト
- Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (2025-12-23T16:32:27Z) - Let the Barbarians In: How AI Can Accelerate Systems Performance Research [80.43506848683633]
我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。
我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
論文 参考訳(メタデータ) (2025-12-16T18:51:23Z) - ARC-GEN: A Mimetic Procedural Benchmark Generator for the Abstraction and Reasoning Corpus [3.553493344868413]
本稿では,ARC-AGIトレーニングデータセットの拡張を目的としたオープンソースプロシージャジェネレータであるARC-GENを紹介する。
これまでの取り組みとは異なり、我々のジェネレータは(全4つのタスクをカバーしている)徹底的かつ緩和的です。
また、このジェネレータを用いて、2025年のGoogle Code Golf Championshipに応募したプログラムの正当性を検証するための静的ベンチマークスイートの確立についても論じる。
論文 参考訳(メタデータ) (2025-10-31T18:10:05Z) - Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models [72.52332895840279]
GenClusterはテスト時の計算フレームワークで、オープンウェイトモデルを使用してIOIゴールドレベルのパフォーマンスを実現する。
GenClusterは、オープンウェイトモデルで、初めてIOI 2025で金メダルを獲得できることを示します。
論文 参考訳(メタデータ) (2025-10-16T02:19:25Z) - ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems [0.03431023404301193]
ARC-AGI-2は、前者の入出力ペアタスクフォーマットを保持し、研究者の連続性を保証する。
それは、抽象的推論と問題解決能力を評価するために特別に設計された、新しくキュレーションされ拡張された一連のタスクを含んでいる。
ARC-AGI-2は、より汎用的で人間らしいAI能力への進歩を厳格に測定するための次世代ツールとして機能することを目指している。
論文 参考訳(メタデータ) (2025-05-17T04:34:48Z) - ARC Prize 2024: Technical Report [0.036355666825174035]
2024年12月現在、ARC-AGIベンチマークは5歳であり、まだ未完成である。
今年のARC Prizeは、新しいアイデアを刺激し、AGIに向けたオープンな進歩を促進するグローバルなコンペティションです。
その結果、ARC-AGIの個人評価の最先端スコアは33%から55.5%に増加した。
論文 参考訳(メタデータ) (2024-12-05T20:40:28Z) - How Far Are We From AGI: Are LLMs All We Need? [15.705756259264932]
AGIは、ヒューマンインテリジェンスに匹敵する効率と有効性で、多様な現実世界のタスクを実行する能力で区別されている。
本稿では、AGIに必要な機能フレームワークを概説し、内部、インターフェース、システム次元を統合する。
AIの統合によるユビキタスな影響について、具体的な洞察を得るため、複数のドメインにおけるAGIに対する既存の課題と潜在的な経路を概説する。
論文 参考訳(メタデータ) (2024-05-16T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。