論文の概要: Program Synthesis via Test-Time Transduction
- arxiv url: http://arxiv.org/abs/2509.17393v1
- Date: Mon, 22 Sep 2025 06:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.242479
- Title: Program Synthesis via Test-Time Transduction
- Title(参考訳): テスト時間変換によるプログラム合成
- Authors: Kang-il Lee, Jahyun Koo, Seunghyun Yoon, Minbeom Kim, Hyukhun Koh, Dongryeol Lee, Kyomin Jung,
- Abstract要約: 本稿では,プログラム合成タスクの新たな定式化であるトランスダクティブプログラム合成を紹介し,合成中のテスト入力を明示的に活用する。
我々は,文字列変換ベンチマークのPlaygolとPythonコード生成ベンチマークのMBPP+という,実世界の2つのデータセットに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 26.30808249424997
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce transductive program synthesis, a new formulation of the program synthesis task that explicitly leverages test inputs during synthesis. While prior approaches to program synthesis--whether based on natural language descriptions or input-output examples--typically aim to generalize from training examples, they often struggle with robustness, especially in real-world settings where training examples are limited and test inputs involve various edge cases. To address this, we propose a novel framework that improves robustness by treating synthesis as an active learning over a finite hypothesis class defined by programs' outputs. We use an LLM to predict outputs for selected test inputs and eliminate inconsistent hypotheses, where the inputs are chosen via a greedy maximin algorithm to minimize the number of LLM queries required. We evaluate our approach on two real-world datasets: Playgol, a string transformation benchmark, and MBPP+, a Python code generation benchmark. We demonstrate that our method significantly improves program synthesis in both accuracy and efficiency. We release our code at https://github.com/klee972/SYNTRA.
- Abstract(参考訳): 本稿では,プログラム合成タスクの新たな定式化であるトランスダクティブプログラム合成を紹介し,合成中のテスト入力を明示的に活用する。
プログラム合成への以前のアプローチは、自然言語の記述や入力出力の例に基づくものであっても、典型的にはトレーニング例から一般化することを目的としているが、特にトレーニング例が限定され、テストインプットが様々なエッジケースを含む現実の環境では、堅牢性に苦慮することが多い。
そこで本研究では,プログラムの出力によって定義される有限仮説クラスに対して,合成をアクティブな学習として扱うことにより,ロバスト性を向上させる新しいフレームワークを提案する。
我々は、LLMを用いて、選択されたテスト入力の出力を予測し、不整合仮説を排除し、そこでは、入力がグレーディ・マキシミンアルゴリズムによって選択され、必要なLLMクエリの数を最小限に抑える。
我々は,文字列変換ベンチマークのPlaygolとPythonコード生成ベンチマークのMBPP+という,実世界の2つのデータセットに対するアプローチを評価した。
提案手法は,プログラムの精度と効率性の両方において,プログラム合成を大幅に改善することを示す。
コードについてはhttps://github.com/klee972/SYNTRAで公開しています。
関連論文リスト
- CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis [6.8081984950459]
既存の評価プロトコルは、静的なサンプルセットとホールドアウトテストに依存しており、合成された関数が正しくない場合にフィードバックを提供する。
エージェントが隠れたターゲット関数と対話する新しい評価フレームワークであるCodeARCを提案する。
1114の関数を特徴とする汎用帰納的プログラム合成のための,最初の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-29T16:50:39Z) - ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - Guiding Enumerative Program Synthesis with Large Language Models [15.500250058226474]
本稿では,形式的合成ベンチマークを解くための大規模言語モデルの能力を評価する。
ワンショット合成が失敗すると,新しい列挙合成アルゴリズムを提案する。
形式的合成のためのスタンドアロンツールとしてGPT-3.5は,最先端の形式的合成アルゴリズムにより容易に性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-06T19:13:53Z) - ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。
本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文 参考訳(メタデータ) (2023-07-26T01:07:52Z) - Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation [20.45045253933097]
LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。
EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。
我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
論文 参考訳(メタデータ) (2023-05-02T05:46:48Z) - Latent Execution for Neural Program Synthesis Beyond Domain-Specific
Languages [97.58968222942173]
入力出力の例からCプログラムを合成する第一歩を踏み出す。
特に,部分生成プログラムの実行を近似するために潜在表現を学習するLa Synthを提案する。
これらのプログラムのトレーニングにより,Karel と C のプログラム合成における予測性能がさらに向上することを示す。
論文 参考訳(メタデータ) (2021-06-29T02:21:32Z) - Latent Programmer: Discrete Latent Codes for Program Synthesis [56.37993487589351]
プログラム合成や文書要約などの多くのシーケンス学習タスクにおいて、重要な問題は出力シーケンスの広い空間を探索することである。
本稿では,検索対象とする出力の表現を学習することを提案する。
本稿では,まず入力/出力サンプルから離散潜在コードを予測するプログラム合成手法であるemphLatent Programmerを紹介し,そのプログラムを対象言語で生成する。
論文 参考訳(メタデータ) (2020-12-01T10:11:35Z) - BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。
特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。
単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文 参考訳(メタデータ) (2020-07-28T17:46:18Z) - Synthetic Datasets for Neural Program Synthesis [66.20924952964117]
本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。
そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
論文 参考訳(メタデータ) (2019-12-27T21:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。