論文の概要: Graph-Based Exploration for ARC-AGI-3 Interactive Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2512.24156v1
- Date: Tue, 30 Dec 2025 11:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.368337
- Title: Graph-Based Exploration for ARC-AGI-3 Interactive Reasoning Tasks
- Title(参考訳): ARC-AGI-3対話型推論タスクのためのグラフベース探索
- Authors: Evgenii Rudakov, Jonathan Shock, Benjamin Ultan Cowley,
- Abstract要約: ARC-AGI-3ベンチマークにおいて,対話型推論タスクを解くための学習不要な手法を提案する。
本手法は,視覚に基づくフレーム処理とグラフ構造表現を用いた状態空間探索を併用する。
6試合中52位中30位、プライベートリーダーボードでは3位である。
- 参考スコア(独自算出の注目度): 0.32116198597240847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a training-free graph-based approach for solving interactive reasoning tasks in the ARC-AGI-3 benchmark. ARC-AGI-3 comprises game-like tasks where agents must infer task mechanics through limited interactions, and adapt to increasing complexity as levels progress. Success requires forming hypotheses, testing them, and tracking discovered mechanics. The benchmark has revealed that state-of-the-art LLMs are currently incapable of reliably solving these tasks. Our method combines vision-based frame processing with systematic state-space exploration using graph-structured representations. It segments visual frames into meaningful components, prioritizes actions based on visual salience, and maintains a directed graph of explored states and transitions. By tracking visited states and tested actions, the agent prioritizes actions that provide the shortest path to untested state-action pairs. On the ARC-AGI-3 Preview Challenge, this structured exploration strategy solves a median of 30 out of 52 levels across six games and ranks 3rd on the private leaderboard, substantially outperforming frontier LLM-based agents. These results demonstrate that explicit graph-structured exploration, even without learning, can serve as a strong baseline for interactive reasoning and underscore the importance of systematic state tracking and action prioritization in sparse-feedback environments where current LLMs fail to capture task dynamics. The code is open source and available at https://github.com/dolphin-in-a-coma/arc-agi-3-just-explore.
- Abstract(参考訳): ARC-AGI-3ベンチマークにおいて,対話型推論タスクを解くための学習自由グラフに基づく手法を提案する。
ARC-AGI-3はゲームライクなタスクであり、エージェントは限られた相互作用を通してタスク力学を推論し、レベルが進むにつれて複雑さの増加に適応しなければならない。
成功には仮説を形成し、それらをテストし、発見された力学を追跡する必要がある。
このベンチマークによると、現在最先端のLLMはこれらのタスクを確実に解決できない。
本手法は,視覚に基づくフレーム処理とグラフ構造表現を用いた状態空間探索を併用する。
視覚的フレームを意味のあるコンポーネントに分割し、視覚的サリエンスに基づいてアクションを優先順位付けし、探索された状態と遷移の有向グラフを維持する。
訪問した状態を追跡し、テストされたアクションを追跡することで、エージェントはテストされていない状態-アクションペアへの最も短いパスを提供するアクションを優先順位付けする。
ARC-AGI-3 Preview Challengeでは、この構造化された探索戦略により、6つのゲームで52レベル中30レベルが解決され、民間のリーダーボードでは3位となり、フロンティアのLLMエージェントよりも大幅に上回った。
これらの結果は,学習なしでも明示的なグラフ構造化探索が対話的推論の強力なベースラインとして機能し,現在のLLMがタスクダイナミクスを捕捉できないスパースフィードバック環境において,システム的状態追跡と行動優先順位付けの重要性を浮き彫りにすることを示した。
コードはオープンソースで、https://github.com/dolphin-in-a-coma/arc-agi-3-just-exploreで公開されている。
関連論文リスト
- Think-on-Graph 3.0: Efficient and Adaptive LLM Reasoning on Heterogeneous Graphs via Multi-Agent Dual-Evolving Context Retrieval [35.65907480060404]
Think-on-Graph 3.0 (ToG-3) は、制約を克服するためにMulti-Agent Context Evolution and Retrieval (MACER) メカニズムを導入した新しいフレームワークである。
我々の中心となる革新は、チャンク・トリプレット・コミュニティ・ヘテロジニアスグラフ指数の動的構築と洗練である。
マルチエージェントシステムは、エビデンス検索、回答生成、十分性、そして決定的に進化するクエリとサブグラフの反復的なプロセスに関与する。
論文 参考訳(メタデータ) (2025-09-26T00:13:10Z) - Enrich-on-Graph: Query-Graph Alignment for Complex Reasoning with LLM Enriching [61.824094419641575]
大言語モデル(LLM)は知識グラフ質問応答(KGQA)のような知識集約的なシナリオにおける幻覚と事実的誤りに苦しむ
これは、構造化知識グラフ(KG)と非構造化クエリのセマンティックギャップによるもので、その焦点や構造に固有の違いが原因である。
既存の手法は通常、バニラKGの資源集約的で非スケーリング可能な推論を用いるが、このギャップを見落としている。
我々は、LLMの事前知識を活用してKGを充実させる柔軟なフレームワークEnrich-on-Graph(EoG)を提案し、グラフとクエリ間のセマンティックギャップを埋める。
論文 参考訳(メタデータ) (2025-09-25T06:48:52Z) - Boosting Zero-Shot VLN via Abstract Obstacle Map-Based Waypoint Prediction with TopoGraph-and-VisitInfo-Aware Prompting [18.325003967982827]
視覚言語ナビゲーション (VLN) は、広範囲に応用されたエージェントの具体化のための重要なタスクとして登場した。
マルチモーダル大言語モデル(MLLM)と簡易かつ効果的なウェイポイント予測器を統合したゼロショットフレームワークを提案する。
R2R-CE と RxR-CE の実験結果から,本手法は最先端のゼロショット性能を実現し,成功率は 41% と 36% であった。
論文 参考訳(メタデータ) (2025-09-24T19:21:39Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - GraphRunner: A Multi-Stage Framework for Efficient and Accurate Graph-Based Retrieval [3.792463570467098]
GraphRunnerは、新しいグラフベースの検索フレームワークで、計画、検証、実行の3つの異なる段階で動作する。
推論エラーを著しく低減し、実行前に幻覚を検出する。
GRBenchデータセットによる評価は、GraphRunnerが既存のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-11T18:10:01Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Knowledge Retrieval in LLM Gaming: A Shift from Entity-Centric to Goal-Oriented Graphs [6.636092764694501]
大きな言語モデル(LLM)は印象的な汎用能力を示すが、特にゲームのような複雑なアプリケーションにおいて、ステップバイステップの推論に苦戦することが多い。
ゴール指向グラフ(GoG)に基づく新しいフレームワークを提案し,各ノードがゴールとその属性を表現し,エッジがゴール間の論理的依存関係を符号化する。
本手法は,Minecraft テストベッド,GraphRAG などのベースラインの広範な実験により,ゲームプレイタスクにおける LLM の推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2025-05-24T09:09:20Z) - Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。