論文の概要: ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence
- arxiv url: http://arxiv.org/abs/2603.24621v1
- Date: Tue, 24 Mar 2026 21:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.896559
- Title: ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence
- Title(参考訳): ARC-AGI-3:フロンティアエージェントインテリジェンスへの挑戦
- Authors: ARC Prize Foundation,
- Abstract要約: ARC-AGI-3は、新しい抽象的なターンベースの環境を通じてエージェントインテリジェンスを研究するためのインタラクティブなベンチマークである。
本稿では,ヒトの行動ベースラインを基盤としたベンチマーク設計,効率に基づく評価フレームワーク,環境の構築,検証,校正に使用される方法論について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ARC-AGI-3, an interactive benchmark for studying agentic intelligence through novel, abstract, turn-based environments in which agents must explore, infer goals, build internal models of environment dynamics, and plan effective action sequences without explicit instructions. Like its predecessors ARC-AGI-1 and 2, ARC-AGI-3 focuses entirely on evaluating fluid adaptive efficiency on novel tasks, while avoiding language and external knowledge. ARC-AGI-3 environments only leverage Core Knowledge priors and are difficulty-calibrated via extensive testing with human test-takers. Our testing shows humans can solve 100% of the environments, in contrast to frontier AI systems which, as of March 2026, score below 1%. In this paper, we present the benchmark design, its efficiency-based scoring framework grounded in human action baselines, and the methodology used to construct, validate, and calibrate the environments.
- Abstract(参考訳): ARC-AGI-3は、エージェントが探索し、目標を推測し、環境力学の内部モデルを構築し、明示的な指示なしに効果的なアクションシーケンスを計画しなければならない、新しい抽象的なターンベースの環境を通してエージェントインテリジェンスを研究するためのインタラクティブなベンチマークである。
ARC-AGI-1とARC-AGI-3と同様に、ARC-AGI-3は、言語や外部知識を避けながら、新しいタスクにおける流体適応効率の評価に完全に重点を置いている。
ARC-AGI-3環境はコア知識の事前利用しか行わず、人間のテストテイカーによる広範なテストによって校正が困難になる。
私たちのテストでは、2026年3月時点で1%未満のスコアであるフロンティアAIシステムとは対照的に、人間が100%の環境を解決できることを示しています。
本稿では,人間の行動ベースラインに基づくベンチマーク設計,効率に基づく評価フレームワーク,環境の構築,検証,校正に使用される方法論について述べる。
関連論文リスト
- The ARC of Progress towards AGI: A Living Survey of Abstraction and Reasoning [5.870990919877351]
ARC-AGI(Abstraction and Reasoning Corpus)は、AIにおける流体インテリジェンスの重要なベンチマークとなっている。
この調査では、3つのベンチマークバージョンにわたる82のアプローチとARC Prize 2024-2025のコンペティションに関する最初の世代間分析を行った。
論文 参考訳(メタデータ) (2026-03-09T23:16:19Z) - Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation [57.65688895630163]
ACuRLは自律的なカリキュラム強化学習フレームワークで、エージェントを人間データゼロの特定の環境に継続的に適応させる。
本研究では,環境内学習と環境横断学習の両方を効果的に実現し,既存の環境を忘れずに4~22%の性能向上を実現した。
論文 参考訳(メタデータ) (2026-02-10T23:06:02Z) - ARC Prize 2025: Technical Report [0.45671221781968335]
ARC-AGIベンチマークシリーズは、新規タスクにおける数ショットの一般化の重要な指標である。
2025年の世界大会は、新たにリリースされたARC-AGI-2データセットをターゲットにした。
2025年の定義テーマは改良ループの出現である。
論文 参考訳(メタデータ) (2026-01-15T23:23:56Z) - Graph-Based Exploration for ARC-AGI-3 Interactive Reasoning Tasks [0.32116198597240847]
ARC-AGI-3ベンチマークにおいて,対話型推論タスクを解くための学習不要な手法を提案する。
本手法は,視覚に基づくフレーム処理とグラフ構造表現を用いた状態空間探索を併用する。
6試合中52位中30位、プライベートリーダーボードでは3位である。
論文 参考訳(メタデータ) (2025-12-30T11:40:23Z) - Vector Symbolic Algebras for the Abstraction and Reasoning Corpus [1.2031796234206134]
ARC-AGIは、数発の流体インテリジェンスベンチマークである。
認知学的に妥当なARC-AGIソルバを提案する。
システム1の直観とシステム2の推論を統合する。
論文 参考訳(メタデータ) (2025-11-11T20:07:50Z) - ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems [0.03431023404301193]
ARC-AGI-2は、前者の入出力ペアタスクフォーマットを保持し、研究者の連続性を保証する。
それは、抽象的推論と問題解決能力を評価するために特別に設計された、新しくキュレーションされ拡張された一連のタスクを含んでいる。
ARC-AGI-2は、より汎用的で人間らしいAI能力への進歩を厳格に測定するための次世代ツールとして機能することを目指している。
論文 参考訳(メタデータ) (2025-05-17T04:34:48Z) - Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文 参考訳(メタデータ) (2025-03-14T06:29:47Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。