論文の概要: CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis
- arxiv url: http://arxiv.org/abs/2503.23145v1
- Date: Sat, 29 Mar 2025 16:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.957134
- Title: CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis
- Title(参考訳): CodeARC: 帰納的プログラム合成のためのLLMエージェントのベンチマーク推論機能
- Authors: Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken,
- Abstract要約: 大規模言語モデルエージェントは、自然言語でガイドされるプログラミングタスクにおいて有望であることを示している。
既存の評価プロトコルは、静的なサンプルセットとホールドアウトテストに依存している。
エージェントが隠れたターゲット関数と相互作用する新しい評価フレームワークであるCodeARCを提案する。
- 参考スコア(独自算出の注目度): 6.8081984950459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inductive program synthesis, or programming by example, requires synthesizing functions from input-output examples that generalize to unseen inputs. While large language model agents have shown promise in programming tasks guided by natural language, their ability to perform inductive program synthesis is underexplored. Existing evaluation protocols rely on static sets of examples and held-out tests, offering no feedback when synthesized functions are incorrect and failing to reflect real-world scenarios such as reverse engineering. We propose CodeARC, the Code Abstraction and Reasoning Challenge, a new evaluation framework where agents interact with a hidden target function by querying it with new inputs, synthesizing candidate functions, and iteratively refining their solutions using a differential testing oracle. This interactive setting encourages agents to perform function calls and self-correction based on feedback. We construct the first large-scale benchmark for general-purpose inductive program synthesis, featuring 1114 functions. Among 18 models evaluated, o3-mini performs best with a success rate of 52.7%, highlighting the difficulty of this task. Fine-tuning LLaMA-3.1-8B-Instruct on curated synthesis traces yields up to a 31% relative performance gain. CodeARC provides a more realistic and challenging testbed for evaluating LLM-based program synthesis and inductive reasoning.
- Abstract(参考訳): 帰納的プログラム合成(英: Inductive program synthesis、例によるプログラミング)は、入力を一般化する入出力例から関数を合成することを必要とする。
大規模言語モデルエージェントは、自然言語で案内されるプログラミングタスクにおいて有望であることを示す一方で、帰納的プログラム合成を行う能力は、あまり探索されていない。
既存の評価プロトコルは、静的なサンプルセットとホールドアウトテストに依存しており、合成された関数が間違っていて、リバースエンジニアリングのような現実世界のシナリオを反映できない場合、フィードバックは提供されない。
我々はCodeARC, Code Abstraction and Reasoning Challengeを提案する。これは、エージェントが隠れたターゲット関数と新しい入力で問い合わせ、候補関数を合成し、微分テストオラクルを使ってソリューションを反復的に修正することで、隠れたターゲット関数と対話する新しい評価フレームワークである。
このインタラクティブな設定により、エージェントはフィードバックに基づいて関数呼び出しと自己補正を実行することができる。
1114の関数を特徴とする汎用帰納的プログラム合成のための,最初の大規模ベンチマークを構築した。
評価された18モデルのうち、o3-miniは52.7%の成功率で最高の性能を発揮し、この課題の難しさを強調している。
微調整されたLLaMA-3.1-8B-硬化した合成トレースのインストラクションは、最大で31%の性能向上をもたらす。
CodeARCは、LSMベースのプログラム合成と帰納的推論を評価するために、より現実的で挑戦的なテストベッドを提供する。
関連論文リスト
- RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。
C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。
SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文 参考訳(メタデータ) (2026-02-28T14:47:34Z) - SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation [1.0010193170880752]
本稿では,高レベルのプログラム意図とポインタ演算と手動メモリ管理の厳密な構文制約とのギャップを埋める,ニューロシンボリックなシナリオベースのフレームワークを提案する。
我々は、59の現実世界およびアルゴリズムの被験者で評価し、バニラプロンプト生成ベースラインを31.36%、分岐カバレッジ26.01%、突然変異スコア20.78%で上回り、シンボリック実行ツールKLEEに適合または超えている。
論文 参考訳(メタデータ) (2026-02-18T18:09:03Z) - From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs [48.83701310501069]
大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。
本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。
6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
論文 参考訳(メタデータ) (2026-01-07T11:13:02Z) - Program Synthesis via Test-Time Transduction [26.30808249424997]
本稿では,プログラム合成タスクの新たな定式化であるトランスダクティブプログラム合成を紹介し,合成中のテスト入力を明示的に活用する。
提案手法は,Playgol,MBPP+,1D-ARC,MiniGrid上のプログラム的世界モデリングの4つのベンチマークで評価する。
提案手法は,プログラムの精度と効率性の両方において,プログラム合成を大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-09-22T06:53:32Z) - STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning [6.282781900938977]
複雑な多機能理解と細粒度実行推論のための新しいベンチマークであるSTEPWISE-CODEX-Bench(SX-Bench)を提案する。
SX-Benchは非常に差別的であり、最先端のOpenAI-O3でさえハード推論タスクでは78.7%の精度しか達成していない。
論文 参考訳(メタデータ) (2025-08-07T09:28:43Z) - Grammar-Guided Evolutionary Search for Discrete Prompt Optimisation [63.97051732013936]
本稿では,2段階からなる離散的な自動最適化に対する進化的探索手法を提案する。
第1段階では、文法誘導型遺伝的プログラミングが実行され、プロンプト生成プログラムを合成する。
第2段階では、局所探索を用いて、最高のパフォーマンスプログラムの周辺を探索する。
論文 参考訳(メタデータ) (2025-07-14T14:34:15Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - Inductive Predicate Synthesis Modulo Programs (Extended) [1.7372615815088566]
プログラム解析のトレンドは、入力プログラムの言語内で検証条件を符号化することである。
Inductive Predicate Synthesis Modulo Programs (IPS-MP) を提案する。
論文 参考訳(メタデータ) (2024-07-11T12:51:08Z) - HYSYNTH: Context-Free LLM Approximation for Guiding Program Synthesis [25.260063704712458]
大規模言語モデル(LLM)は、よく知らないDSLで完全に正しいプログラムを生成するのに失敗する。
これらの制約により、与えられたタスクに対する LLM 補完をタスク固有の文脈自由代用モデル学習に使用するハイブリッドアプローチを導入する。
このハイブリッドなアプローチを3つの領域で評価し、既存のプログラムシンセサイザーと同様に、無誘導探索とLCMからの直接サンプリングの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-05-24T18:45:51Z) - Guiding Enumerative Program Synthesis with Large Language Models [15.500250058226474]
本稿では,形式的合成ベンチマークを解くための大規模言語モデルの能力を評価する。
ワンショット合成が失敗すると,新しい列挙合成アルゴリズムを提案する。
形式的合成のためのスタンドアロンツールとしてGPT-3.5は,最先端の形式的合成アルゴリズムにより容易に性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-06T19:13:53Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。
本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文 参考訳(メタデータ) (2023-07-26T01:07:52Z) - Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer
Control [23.115574119132507]
コンピュータ制御のための大きな言語モデルを持つエージェントを構築することは、エージェントがコンピュータの状態を受け取り、タスクを完了するためのアクションを実行する、急成長する研究領域である。
従来のコンピュータエージェントは、インコンテキスト学習(ICL)の利点を実証してきたが、その性能はいくつかの問題によって妨げられている。
i) タスク非関連情報を原状態からフィルタリングし、制限されたコンテキスト内でより多くの例を示し、i) トラジェクトリ・アズ・インタープロンプトを可能にし、LLMに抽象化された状態の完全なトラジェクトリとアクションを誘導し、マルチステップ決定を改善する。
論文 参考訳(メタデータ) (2023-06-13T15:49:41Z) - Latent Execution for Neural Program Synthesis Beyond Domain-Specific
Languages [97.58968222942173]
入力出力の例からCプログラムを合成する第一歩を踏み出す。
特に,部分生成プログラムの実行を近似するために潜在表現を学習するLa Synthを提案する。
これらのプログラムのトレーニングにより,Karel と C のプログラム合成における予測性能がさらに向上することを示す。
論文 参考訳(メタデータ) (2021-06-29T02:21:32Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z) - BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。
特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。
単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文 参考訳(メタデータ) (2020-07-28T17:46:18Z) - Synthesize, Execute and Debug: Learning to Repair for Neural Program
Synthesis [81.54148730967394]
本稿では,合成,実行,デバッグの段階を組み込んだニューラルネットワーク生成フレームワークであるSEDを提案する。
SEDはまず、神経プログラムシンセサイザーコンポーネントを使用して初期プログラムを生成し、その後、神経プログラムデバッガを使用して生成されたプログラムを反復的に修復する。
挑戦的な入出力プログラム合成ベンチマークであるKarelでは、SEDはニューラルプログラムシンセサイザー自体のエラー率をかなりのマージンで削減し、デコードのための標準ビームサーチより優れている。
論文 参考訳(メタデータ) (2020-07-16T04:15:47Z) - Towards Neural-Guided Program Synthesis for Linear Temporal Logic
Specifications [26.547133495699093]
ニューラルネットワークを用いてQ関数を学習し、探索を誘導し、その後正当性を検証したプログラムを構築する。
提案手法は,検索と深層学習を組み合わせることで,合成を実現するのにユニークな手法である。
論文 参考訳(メタデータ) (2019-12-31T17:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。