Fugu-MT 論文翻訳(概要): CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

論文の概要: CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

arxiv url: http://arxiv.org/abs/2503.23145v1
Date: Sat, 29 Mar 2025 16:50:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:56.957134
Title: CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis
Title（参考訳）: CodeARC: 帰納的プログラム合成のためのLLMエージェントのベンチマーク推論機能
Authors: Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken,
Abstract要約: 大規模言語モデルエージェントは、自然言語でガイドされるプログラミングタスクにおいて有望であることを示している。既存の評価プロトコルは、静的なサンプルセットとホールドアウトテストに依存している。エージェントが隠れたターゲット関数と相互作用する新しい評価フレームワークであるCodeARCを提案する。
参考スコア（独自算出の注目度）: 6.8081984950459
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inductive program synthesis, or programming by example, requires synthesizing functions from input-output examples that generalize to unseen inputs. While large language model agents have shown promise in programming tasks guided by natural language, their ability to perform inductive program synthesis is underexplored. Existing evaluation protocols rely on static sets of examples and held-out tests, offering no feedback when synthesized functions are incorrect and failing to reflect real-world scenarios such as reverse engineering. We propose CodeARC, the Code Abstraction and Reasoning Challenge, a new evaluation framework where agents interact with a hidden target function by querying it with new inputs, synthesizing candidate functions, and iteratively refining their solutions using a differential testing oracle. This interactive setting encourages agents to perform function calls and self-correction based on feedback. We construct the first large-scale benchmark for general-purpose inductive program synthesis, featuring 1114 functions. Among 18 models evaluated, o3-mini performs best with a success rate of 52.7%, highlighting the difficulty of this task. Fine-tuning LLaMA-3.1-8B-Instruct on curated synthesis traces yields up to a 31% relative performance gain. CodeARC provides a more realistic and challenging testbed for evaluating LLM-based program synthesis and inductive reasoning.
Abstract（参考訳）: 帰納的プログラム合成(英: Inductive program synthesis、例によるプログラミング)は、入力を一般化する入出力例から関数を合成することを必要とする。大規模言語モデルエージェントは、自然言語で案内されるプログラミングタスクにおいて有望であることを示す一方で、帰納的プログラム合成を行う能力は、あまり探索されていない。既存の評価プロトコルは、静的なサンプルセットとホールドアウトテストに依存しており、合成された関数が間違っていて、リバースエンジニアリングのような現実世界のシナリオを反映できない場合、フィードバックは提供されない。我々はCodeARC, Code Abstraction and Reasoning Challengeを提案する。これは、エージェントが隠れたターゲット関数と新しい入力で問い合わせ、候補関数を合成し、微分テストオラクルを使ってソリューションを反復的に修正することで、隠れたターゲット関数と対話する新しい評価フレームワークである。このインタラクティブな設定により、エージェントはフィードバックに基づいて関数呼び出しと自己補正を実行することができる。 1114の関数を特徴とする汎用帰納的プログラム合成のための,最初の大規模ベンチマークを構築した。評価された18モデルのうち、o3-miniは52.7%の成功率で最高の性能を発揮し、この課題の難しさを強調している。微調整されたLLaMA-3.1-8B-硬化した合成トレースのインストラクションは、最大で31%の性能向上をもたらす。 CodeARCは、LSMベースのプログラム合成と帰納的推論を評価するために、より現実的で挑戦的なテストベッドを提供する。

関連論文リスト

STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning [6.282781900938977]
複雑な多機能理解と細粒度実行推論のための新しいベンチマークであるSTEPWISE-CODEX-Bench(SX-Bench)を提案する。 SX-Benchは非常に差別的であり、最先端のOpenAI-O3でさえハード推論タスクでは78.7%の精度しか達成していない。
論文参考訳（メタデータ） (2025-08-07T09:28:43Z)
Grammar-Guided Evolutionary Search for Discrete Prompt Optimisation [63.97051732013936]
本稿では,2段階からなる離散的な自動最適化に対する進化的探索手法を提案する。第1段階では、文法誘導型遺伝的プログラミングが実行され、プロンプト生成プログラムを合成する。第2段階では、局所探索を用いて、最高のパフォーマンスプログラムの周辺を探索する。
論文参考訳（メタデータ） (2025-07-14T14:34:15Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文参考訳（メタデータ） (2024-07-17T11:35:00Z)
Inductive Predicate Synthesis Modulo Programs (Extended) [1.7372615815088566]
プログラム解析のトレンドは、入力プログラムの言語内で検証条件を符号化することである。 Inductive Predicate Synthesis Modulo Programs (IPS-MP) を提案する。
論文参考訳（メタデータ） (2024-07-11T12:51:08Z)
HYSYNTH: Context-Free LLM Approximation for Guiding Program Synthesis [25.260063704712458]
大規模言語モデル(LLM)は、よく知らないDSLで完全に正しいプログラムを生成するのに失敗する。これらの制約により、与えられたタスクに対する LLM 補完をタスク固有の文脈自由代用モデル学習に使用するハイブリッドアプローチを導入する。このハイブリッドなアプローチを3つの領域で評価し、既存のプログラムシンセサイザーと同様に、無誘導探索とLCMからの直接サンプリングの両方より優れていることを示す。
論文参考訳（メタデータ） (2024-05-24T18:45:51Z)
Guiding Enumerative Program Synthesis with Large Language Models [15.500250058226474]
本稿では,形式的合成ベンチマークを解くための大規模言語モデルの能力を評価する。ワンショット合成が失敗すると,新しい列挙合成アルゴリズムを提案する。形式的合成のためのスタンドアロンツールとしてGPT-3.5は,最先端の形式的合成アルゴリズムにより容易に性能が向上することがわかった。
論文参考訳（メタデータ） (2024-03-06T19:13:53Z)
ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文参考訳（メタデータ） (2023-07-26T01:07:52Z)
Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control [23.115574119132507]
コンピュータ制御のための大きな言語モデルを持つエージェントを構築することは、エージェントがコンピュータの状態を受け取り、タスクを完了するためのアクションを実行する、急成長する研究領域である。従来のコンピュータエージェントは、インコンテキスト学習(ICL)の利点を実証してきたが、その性能はいくつかの問題によって妨げられている。 i) タスク非関連情報を原状態からフィルタリングし、制限されたコンテキスト内でより多くの例を示し、i) トラジェクトリ・アズ・インタープロンプトを可能にし、LLMに抽象化された状態の完全なトラジェクトリとアクションを誘導し、マルチステップ決定を改善する。
論文参考訳（メタデータ） (2023-06-13T15:49:41Z)
Latent Execution for Neural Program Synthesis Beyond Domain-Specific Languages [97.58968222942173]
入力出力の例からCプログラムを合成する第一歩を踏み出す。特に,部分生成プログラムの実行を近似するために潜在表現を学習するLa Synthを提案する。これらのプログラムのトレーニングにより,Karel と C のプログラム合成における予測性能がさらに向上することを示す。
論文参考訳（メタデータ） (2021-06-29T02:21:32Z)
Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文参考訳（メタデータ） (2021-06-18T15:08:47Z)
BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文参考訳（メタデータ） (2020-07-28T17:46:18Z)
Synthesize, Execute and Debug: Learning to Repair for Neural Program Synthesis [81.54148730967394]
本稿では,合成,実行,デバッグの段階を組み込んだニューラルネットワーク生成フレームワークであるSEDを提案する。 SEDはまず、神経プログラムシンセサイザーコンポーネントを使用して初期プログラムを生成し、その後、神経プログラムデバッガを使用して生成されたプログラムを反復的に修復する。挑戦的な入出力プログラム合成ベンチマークであるKarelでは、SEDはニューラルプログラムシンセサイザー自体のエラー率をかなりのマージンで削減し、デコードのための標準ビームサーチより優れている。
論文参考訳（メタデータ） (2020-07-16T04:15:47Z)
Towards Neural-Guided Program Synthesis for Linear Temporal Logic Specifications [26.547133495699093]
ニューラルネットワークを用いてQ関数を学習し、探索を誘導し、その後正当性を検証したプログラムを構築する。提案手法は,検索と深層学習を組み合わせることで,合成を実現するのにユニークな手法である。
論文参考訳（メタデータ） (2019-12-31T17:09:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。