論文の概要: Explore Before You Solve: The Speed--Depth Trade-off in Epistemic Agents for ARC-AGI-3
- arxiv url: http://arxiv.org/abs/2605.25931v1
- Date: Mon, 25 May 2026 15:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.349032
- Title: Explore Before You Solve: The Speed--Depth Trade-off in Epistemic Agents for ARC-AGI-3
- Title(参考訳): ARC-AGI-3用抗てんかん剤の速度-深度トレードオフ
- Authors: Liew Keong Han,
- Abstract要約: 一般に25のARC-AGI-3ゲームについて検討し、すべてのゲームが非知的な戦略によって到達可能であることを確認する。
このベンチマーク批判は、公開評価セットが知的探索を識別できないことを示唆している。
これら25試合でRHAE=0.2116を達成する三相(EXPLORE / VERIFY / PLAN)エージェントであるAERAを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We systematically investigate all 25 public ARC-AGI-3 games and find that every one is reachable through non-intelligent strategies: 10 in a single blind step, 5 after one probing action, 1 via repeated ACTION1 presses, 1 via diverse exploration, and 8 via single repeated actions with sufficient budget (50-200 steps). A library-level null-coordinate vulnerability additionally bypasses 18 games in 1 step. This benchmark critique implies the public evaluation set cannot discriminate intelligent exploration from trivial heuristics - the private 55-game evaluation is the only genuine intelligence test. Against this backdrop, we present AERA (Adaptive Epistemic Reasoning Agent), a three-phase (EXPLORE / VERIFY / PLAN) agent achieving RHAE=0.2116 (4/25 solved) on these 25 games with Qwen2.5-0.5B, while random and no-explore baselines score 0.0000. We formalise AERA through a Speed--Depth trade-off framework: under a convexity assumption (proved for a class of environments in the Appendix), RHAE's quadratic form emerges as a second-order penalty for deviating from the Pareto frontier between action efficiency and information gain. Contributions: (i) a benchmark validity analysis showing that current interactive reasoning benchmarks fail to measure the exploration they claim to require, and (ii) the EXPLORE-before-PLAN framework and model-capability x exploration interaction. The linked code track entry achieves RHAE=0.30 on the full 55-game private evaluation. Code: CC0.
- Abstract(参考訳): 我々は,25のパブリックARC-AGI-3ゲーム全てを体系的に調査し,各ゲームが1つのブラインドステップで10回,1回の探索動作で5回,1回の繰り返しACTION1プレスで1回,1回の探索で8回,十分な予算(50~200歩)で到達可能であることを発見した。
ライブラリレベルのヌルコーディネート脆弱性は1ステップで18ゲームをバイパスする。
このベンチマークの批判は、公的な評価セットが、自明なヒューリスティックスから知的な探索を区別できないことを示唆している。
このような背景から,Qwen2.5-0.5Bを用いた25試合でRHAE=0.2116(4/25)を達成する3相エージェントであるAERA(Adaptive Epistemic Reasoning Agent,EXPLORE / VERIFY / PLAN)を提案する。
我々は, AERA を速度-深度トレードオフの枠組みで定式化する: 凸性仮定 (Appendix の環境クラスで証明された) の下で, RHAE の二次形式は, 行動効率と情報ゲインの間のパレートフロンティアから逸脱する2次ペナルティとして現れる。
寄稿:
一 現在の対話的推論ベンチマークが要求する探索を測ることに失敗していることを示すベンチマークの妥当性分析
(II) EXPLORE-before-PLANフレームワークとモデル能力x探索インタラクション。
リンクされたコードトラックのエントリーは55ゲームのプライベート評価でRHAE=0.30を達成する。
コード:CC0。
関連論文リスト
- GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives [48.545980031973556]
GAMBITは、インポスタ検出器を評価するための3つの評価モードと2つの独立したスコアを持つベンチマークである。
ベンチマークには、240の共進化型インポスタ戦略にまたがる27,804のラベル付きインスタンスのデータセットが付属している。
論文 参考訳(メタデータ) (2026-05-09T16:07:23Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence [0.0]
ARC-AGI-3は、新しい抽象的なターンベースの環境を通じてエージェントインテリジェンスを研究するためのインタラクティブなベンチマークである。
本稿では,ヒトの行動ベースラインを基盤としたベンチマーク設計,効率に基づく評価フレームワーク,環境の構築,検証,校正に使用される方法論について述べる。
論文 参考訳(メタデータ) (2026-03-24T21:58:16Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。
我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。
壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文 参考訳(メタデータ) (2022-01-28T17:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。