Fugu-MT 論文翻訳(概要): Predicting Performance of Symbolic and Prompt Programs with Examples

論文の概要: Predicting Performance of Symbolic and Prompt Programs with Examples

arxiv url: http://arxiv.org/abs/2605.21515v1
Date: Fri, 15 May 2026 10:58:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:41.92367
Title: Predicting Performance of Symbolic and Prompt Programs with Examples
Title（参考訳）: シンボリックプログラムとプロンプトプログラムの性能予測と実例
Authors: Chengqi Zheng, Keya Hu, Shuzhi Liu, Tao Wu, Kevin Ellis, Yewen Pu,
Abstract要約: プログラムがシンボル(例えばPython)か、LLMで実行されたプロンプトのいずれかを与えられた場合、同じドメインから見えないタスクに対してそのパフォーマンスを予測します。我々は単純なコインフリップモデルを用いて、各パス/フェイルプログラムの実行をベルヌーイ確率変数として扱い、その成功確率はプログラムの未知のパフォーマンスである。我々は、類似したタスクを検索し、既存のコーパスからプログラムに前もってプロキシを構築し、パフォーマンスを予測するRAPを開発する。
参考スコア（独自算出の注目度）: 19.189672718632412
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM prompting is widely used for naturally stated tasks, yet it is unreliable it may succeed on a few test cases but fail at deployment time. We study performance prediction: given a program, either symbolic (e.g. Python) or a prompt executed on an LLM, and a few in-domain examples, predict its performance on unseen tasks from the same domain. We use a simple coin-flip model, treating each pass/fail program execution as a Bernoulli random variable, whose success probability is the programs unknown performance. In this model, performance depends entirely on: 1) the observed execution outcomes on test cases, and 2) a prior over performances. We compile empirical performance priors from a corpus of diverse programs and tasks, and find that performance for symbolic programs (e.g., Python) are all or nothing, while prompt programs have a diffuse prior with many nearly-correct programs. This difference explains why a few passing tests can certify symbolic programs but not prompt programs. Building on this insight, we develop RAP (Retrieved Approximate Prior), which retrieves similar tasks and prompt programs from an existing corpus to construct a proxy prior, which is then used to predict performance. We show RAP achieves solid performances.
Abstract（参考訳）: LLMプロンプトは自然に記述されたタスクに広く使用されているが、いくつかのテストケースで成功するが、デプロイ時に失敗する可能性があることは信頼できない。プログラムがシンボル (eg Python) あるいは LLM で実行されたプロンプトと、いくつかのドメイン内の例を与えられた場合、そのプログラムは、同じドメインから目に見えないタスクに対してそのパフォーマンスを予測する。我々は単純なコインフリップモデルを用いて、各パス/フェイルプログラムの実行をベルヌーイ確率変数として扱い、その成功確率はプログラムの未知のパフォーマンスである。このモデルでは、パフォーマンスは全く依存しています。 1)検査事例における観察された実行結果、及び 2)パフォーマンスの先行。多様なプログラムやタスクのコーパスから経験的なパフォーマンスをコンパイルし、シンボリックプログラム(例えばPython)のパフォーマンスがすべてか無であるかを確認します。この違いは、いくつかのパステストがシンボルプログラムを証明できるが、プロンプトプログラムを許可しない理由を説明する。この知見に基づいて、我々はRAP(Retrieved Approximate Prior)を開発し、類似したタスクを検索し、既存のコーパスからプログラムをプロンプトしてプロキシを事前に構築し、パフォーマンスを予測する。 RAPがしっかりとしたパフォーマンスを実現していることを示す。

関連論文リスト

The Path Not Taken: Duality in Reasoning about Program Execution [6.381430350711558]
プログラム実行を理解するには,2つの相補的推論タスクを通じて,その本質的にの双対性を評価する必要があると論じる。この双対性を、445のペアインスタンスからなるベンチマークであるDexBenchでインスタンス化し、13の大規模言語モデルを評価する。
論文参考訳（メタデータ） (2026-04-22T03:20:53Z)
ThrowBench: Benchmarking LLMs by Predicting Runtime Exceptions [4.852619858744873]
大規模言語モデル(LLM)は、コード理解と合成の驚くべき能力を示している。 4つの異なるプログラミング言語で書かれた2,400以上の短いユーザ記述プログラムからなるベンチマークであるThrowBenchを紹介する。我々は6つの最先端コードLLMのベンチマーク評価を行い、19～38%(F1スコア)の適度なパフォーマンスを確認した。
論文参考訳（メタデータ） (2025-03-06T09:22:23Z)
NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。 NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文参考訳（メタデータ） (2024-04-23T01:46:32Z)
Parallel Program Analysis on Path Ranges [3.018638214344819]
Ranged symbolic execution は、並列にパス範囲と呼ばれるプログラム部分でシンボリックな実行を実行する。本稿では,プログラムを経路範囲に分割し,任意の解析を並列に行う検証手法を提案する。
論文参考訳（メタデータ） (2024-02-19T08:26:52Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文参考訳（メタデータ） (2022-05-28T03:31:07Z)
Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文参考訳（メタデータ） (2022-04-25T06:06:08Z)
Searching for More Efficient Dynamic Programs [61.79535031840558]
本稿では,プログラム変換の集合,変換プログラムの効率を評価するための単純な指標,およびこの指標を改善するための探索手順について述べる。実際に、自動検索は初期プログラムの大幅な改善を見出すことができることを示す。
論文参考訳（メタデータ） (2021-09-14T20:52:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。