論文の概要: ARC Prize 2024: Technical Report
- arxiv url: http://arxiv.org/abs/2412.04604v2
- Date: Wed, 08 Jan 2025 05:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:53:41.901900
- Title: ARC Prize 2024: Technical Report
- Title(参考訳): ARC Prize 2024: Technical Report
- Authors: Francois Chollet, Mike Knoop, Gregory Kamradt, Bryan Landers,
- Abstract要約: 2024年12月現在、ARC-AGIベンチマークは5歳であり、まだ未完成である。
今年のARC Prizeは、新しいアイデアを刺激し、AGIに向けたオープンな進歩を促進するグローバルなコンペティションです。
その結果、ARC-AGIの個人評価の最先端スコアは33%から55.5%に増加した。
- 参考スコア(独自算出の注目度): 0.036355666825174035
- License:
- Abstract: As of December 2024, the ARC-AGI benchmark is five years old and remains unbeaten. We believe it is currently the most important unsolved AI benchmark in the world because it seeks to measure generalization on novel tasks -- the essence of intelligence -- as opposed to skill at tasks that can be prepared for in advance. This year, we launched ARC Prize, a global competition to inspire new ideas and drive open progress towards AGI by reaching a target benchmark score of 85\%. As a result, the state-of-the-art score on the ARC-AGI private evaluation set increased from 33\% to 55.5\%, propelled by several frontier AGI reasoning techniques including deep learning-guided program synthesis and test-time training. In this paper, we survey top approaches, review new open-source implementations, discuss the limitations of the ARC-AGI-1 dataset, and share key insights gained from the competition.
- Abstract(参考訳): 2024年12月現在、ARC-AGIベンチマークは5歳であり、まだ未完成である。
それは、前もって準備できるタスクのスキルとは対照的に、新しいタスク(知性の本質)の一般化を計測しようとしているからです。
今年、我々はARC Prizeを立ち上げました。これは、新しいアイデアを刺激し、目標ベンチマークスコア85%に達することで、AGIに向けたオープンな進歩を促進するためのグローバルなコンペティションです。
その結果、ARC-AGI個人評価セットの最先端スコアは33\%から55.5\%に増加し、深層学習誘導プログラム合成やテストタイムトレーニングを含むいくつかのフロンティアAGI推論技術が推進された。
本稿では、トップアプローチを調査し、新しいオープンソース実装をレビューし、ARC-AGI-1データセットの限界について議論し、競合から得られた重要な洞察を共有する。
関連論文リスト
- SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [122.04298386571692]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - Understanding and Benchmarking Artificial Intelligence: OpenAI's o3 Is Not AGI [0.0]
OpenAIのo3は、インテリジェンスを測定するためのベンチマークであるARC-AGIで87.5%のハイスコアを達成した。
これにより,大規模言語モデル(LLM)に基づくシステム,特にo3は,人工知能(AGI)に対する知性や進歩を示すのか,という疑問が提起される。
論文 参考訳(メタデータ) (2025-01-13T16:28:01Z) - Neuro-Symbolic AI in 2024: A Systematic Review [0.29260385019352086]
レビューはPRISMA方法論に従い、IEEE Explore、Google Scholar、arXiv、ACM、SpringerLinkといったデータベースを利用した。
1,428紙の最初のプールから、167紙が包含基準を満たし、詳細に分析された。
研究活動の大半は、学習、推論、論理、推論、知識表現の領域に集中している。
論文 参考訳(メタデータ) (2025-01-09T18:48:35Z) - AI Predicts AGI: Leveraging AGI Forecasting and Peer Review to Explore LLMs' Complex Reasoning Capabilities [0.3745329282477066]
2030年までに出現するAI(Artificial General Intelligence, AGI)の可能性を推定し, 最先端の大規模言語モデル16を課題とした。
これらの予測の質を評価するために,自動ピアレビュープロセス(LLM-PR)を実装した。
論文 参考訳(メタデータ) (2024-12-12T15:52:41Z) - H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark [7.840781070208872]
2019年以降、既存の人工知能手法による課題について、限られた進展が観察されている。
これまでの研究は、ARCベンチマークで人間がいかにうまくタスクを解くことができるかを調査した。
我々は,400のトレーニングと400のタスクの完全なセットに基づいて1729人の人間を評価することによって,より堅牢な人的パフォーマンスの推定値を得る。
論文 参考訳(メタデータ) (2024-09-02T17:11:32Z) - PoCo: Point Context Cluster for RGBD Indoor Place Recognition [47.12179061883084]
本稿では,屋内RGB-D位置認識タスクのための新しいエンドツーエンドアルゴリズム(PoCo)を提案する。
本稿では,最近のコンテキスト・オブ・クラスタ(CoC)を一般化したネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-04-03T17:38:15Z) - ICDAR 2023 Competition on Hierarchical Text Detection and Recognition [60.68100769639923]
このコンペティションは、テキストの検出と認識を共同で行うディープラーニングモデルとシステムの研究を促進することを目的としている。
提案するコンペティション組織の詳細について,タスク,データセット,評価,スケジュールなどを紹介する。
大会期間中(2023年1月2日から2023年4月1日まで)、20チーム以上から少なくとも50人が提案された2つのタスクで応募された。
論文 参考訳(メタデータ) (2023-05-16T18:56:12Z) - A Review for Deep Reinforcement Learning in Atari:Benchmarks,
Challenges, and Solutions [0.0]
Atari 2600ゲームにおけるエージェントの汎用性を実証的に評価するための評価プラットフォームとして,アーケード学習環境(Arcade Learning Environment, ALE)を提案する。
Deep Q-Networks (DQN) から Agent57 まで、RL エージェントは ALE において超人的性能を達成しているようだ。
本稿では,人間の世界記録(HWR)に基づく新しいAtariベンチマークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:52:23Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z) - Recognizing Families In the Wild: White Paper for the 4th Edition Data
Challenge [91.55319616114943]
本稿では,Recognizing Families In the Wild(RFIW)評価における支援課題(親族検証,三対象検証,行方不明児の検索・検索)を要約する。
本研究の目的は、2020年のRFIWチャレンジと、将来的な方向性の予測について述べることである。
論文 参考訳(メタデータ) (2020-02-15T02:22:42Z) - Analysing Affective Behavior in the First ABAW 2020 Competition [49.90617840789334]
ABAW(Affective Behavior Analysis in-the-Wild) 2020コンペティションは、3つの主要な行動タスクの自動分析を目的とした最初のコンペティションである。
アルゼンチンのブエノスアイレスで2020年5月に開催されたIEEE Face and Gesture Recognitionと共同で開催されるこのコンペティションについて説明する。
評価指標を概説し,ベースラインシステムとトップ3の実施するチームの方法論をチャレンジ毎に提示し,その結果を最終的に提示する。
論文 参考訳(メタデータ) (2020-01-30T15:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。