論文の概要: Procedural Refinement by LLM-driven Algorithmic Debugging for ARC-AGI-2
- arxiv url: http://arxiv.org/abs/2603.20334v1
- Date: Fri, 20 Mar 2026 08:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.847599
- Title: Procedural Refinement by LLM-driven Algorithmic Debugging for ARC-AGI-2
- Title(参考訳): ARC-AGI-2のためのLCM駆動型アルゴリズムデバッギングによる手続き的リファインメント
- Authors: Yu-Ning Qiu, Lin-Feng Zou, Jiong-Da Wang, Xue-Rong Yuan, Wang-Zhou Dai,
- Abstract要約: 本稿では,Abduction-based Procedural Refinement (ABPR) という,ニューロシンボリックな手続き的洗練手法を提案する。
ABPRは、プログラムの実行をコンパクトで宣言的な木構造トレースに変換するメタインタプリタとLLMを結合する。
ABPRがGemini-3-Flashと組み合わせてPass@2のスコアが56.67%であることは,現代LLMが典型的に性能が劣る言語においても明らかである。
- 参考スコア(独自算出の注目度): 10.013415375696557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In complex code-generation tasks, conversation-based LLM code repair exhibits limited ability to recover from first-pass programming errors, as such code revisions are usually driven by LLMs' "plausible reasoning" rather than a formal, algorithmic debugging procedure. However, a formal foundation for such debugging exists in Udi Shapiro's theory of algorithmic program debugging (APD), which frames program repair as an explicit, stepwise procedural refinement process. In this paper, we propose a neuro-symbolic procedural refinement approach, Abduction-Based Procedural Refinement (ABPR), which couples an LLM with a meta-interpreter that materialises program execution into compact, declarative tree-structured traces, following the principles of APD. We evaluate ABPR on ARC-AGI-2, a benchmark requiring strong abstraction and debugging capabilities, and adopt Prolog as the target language due to its declarative semantics, which are well-suited to algorithmic program debugging. Our experiments show that ABPR paired with Gemini-3-Flash achieves a Pass@2 score of 56.67\% even in a language in which contemporary LLMs typically underperform. These results point towards a more auditable paradigm for program repair by integrating LLMs with classical formal methods.
- Abstract(参考訳): 複雑なコード生成タスクでは、会話ベースのLLMコード修復は、アルゴリズムによる正式なデバッグ手順ではなく、LLMの「称賛できる推論」によって、ファーストパスプログラミングエラーから回復する限られた能力を示す。
しかし,Udi Shapiro のアルゴリズム的プログラムデバッグ(APD)理論では,プログラムの修復を段階的に手続き的洗練プロセスとして表している。
本稿では,プログラム実行をコンパクトかつ宣言的な木構造トレースに変換するメタインタプリタとLLMを結合した,Abduction-Based Procedural Refinement (ABPR) という,ニューロシンボリックな手続き的洗練手法を提案する。
我々は、強力な抽象化とデバッグ機能を必要とするベンチマークであるARC-AGI-2上でABPRを評価し、Prologをターゲット言語として採用した。
我々の実験により,現代LLMが典型的には性能が劣る言語においても,Gemini-3-Flashと組み合わせたABPRがPass@2スコア56.67\%を達成することが示された。
これらの結果は、LSMと古典的な形式的手法を統合することで、プログラム修復のためのより監査可能なパラダイムに向けられている。
関連論文リスト
- InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - Towards Effectively Leveraging Execution Traces for Program Repair with Code LLMs [13.708569727719434]
大きな言語モデル(LLM)は、様々なプログラミングタスクにおいて有望なパフォーマンスを示す。
我々は,標準的なAPRプロンプトをプログラム実行トレースで強化することで,この潜在的な盲点を修復することを目指している。
論文 参考訳(メタデータ) (2025-05-07T14:12:41Z) - SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning [30.938876549335067]
本稿では,新しいニューロン-シンボリックRTL最適化フレームワークであるSymRTLOを提案する。
有限状態機械(FSM)論理の解析と最適化のための記号モジュールを提案する。
Synopsys Design Compiler と Yosys による RTL-Rewriter ベンチマークの実験では、SymRTLO は 43.9% と 62.5% と 51.1% に向上している。
論文 参考訳(メタデータ) (2025-04-14T16:15:55Z) - Pragmatic Reasoning improves LLM Code Generation [34.01862911727194]
大規模言語モデル(LLM)は、自然言語(NL)命令をプログラムコードに変換する上で、驚くべき可能性を示している。
この課題に対処するため、研究者はプログラムコードの複数の候補を生成し、それらを再帰して最良の解を識別するアプローチを提案している。
我々は,Rational Speech Act (RSA) フレームワーク上に構築された新しいコード候補付け機構であるCodeRSAを提案する。
論文 参考訳(メタデータ) (2025-02-20T12:44:26Z) - Designing Algorithms Empowered by Language Models: An Analytical Framework, Case Studies, and Insights [86.06371692309972]
本研究では,大規模言語モデル(LLM)に基づくアルゴリズムの設計と解析のための分析フレームワークを提案する。
提案する枠組みは頭痛を緩和する試みとして機能する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前訓練された大言語(Ms と PLMs)が生成するテキストの意味やスタイルを,推論時に様々なタスクに対して制御することを目的としている。
これらの方法は、しばしば、欲求的かつ明示的にターゲットを選択することによって、もっともらしい連続を導く。
認知二重プロセス理論に着想を得て,新しい復号化フレームワークDECDERを提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - Fully Autonomous Programming with Large Language Models [0.9558392439655015]
LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。
我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。
結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
論文 参考訳(メタデータ) (2023-04-20T16:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。