Fugu-MT 論文翻訳(概要): Ranking LLM-Generated Loop Invariants for Program Verification

論文の概要: Ranking LLM-Generated Loop Invariants for Program Verification

arxiv url: http://arxiv.org/abs/2310.09342v1
Date: Fri, 13 Oct 2023 18:13:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 22:23:08.306654
Title: Ranking LLM-Generated Loop Invariants for Program Verification
Title（参考訳）: プログラム検証のためのLLM生成ループ不変量ランキング
Authors: Saikat Chakraborty, Shuvendu K. Lahiri, Sarah Fakhoury, Madanlal Musuvathi, Akash Lal, Aseem Rastogi, Aditya Senthilnathan, Rahul Sharma, Nikhil Swamy
Abstract要約: 大規模言語モデルは、0ショット設定でプログラムのクラスに対するループ不変量を合成することができる。これは、不変性を確立するためのプログラム検証者への多数の呼び出しにつながる可能性がある。我々は正しい帰納的不変量と誤った試みを区別できるランク付け器を設計した。
参考スコア（独自算出の注目度）: 14.7590099354867
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthesizing inductive loop invariants is fundamental to automating program verification. In this work, we observe that Large Language Models (such as gpt-3.5 or gpt-4) are capable of synthesizing loop invariants for a class of programs in a 0-shot setting, yet require several samples to generate the correct invariants. This can lead to a large number of calls to a program verifier to establish an invariant. To address this issue, we propose a {\it re-ranking} approach for the generated results of LLMs. We have designed a ranker that can distinguish between correct inductive invariants and incorrect attempts based on the problem definition. The ranker is optimized as a contrastive ranker. Experimental results demonstrate that this re-ranking mechanism significantly improves the ranking of correct invariants among the generated candidates, leading to a notable reduction in the number of calls to a verifier.
Abstract（参考訳）: 帰納ループ不変量の合成は、プログラム検証の自動化に不可欠である。本稿では,大規模言語モデル(gpt-3.5 や gpt-4 など)が,0-shot 設定のプログラムのクラスに対してループ不変量の合成が可能であるが,正しい不変量を生成するにはいくつかのサンプルが必要であることを検証した。これは、不変性を確立するためのプログラム検証者への多数の呼び出しにつながる可能性がある。この問題に対処するために, LLM の生成結果に対して, {\it re-level} アプローチを提案する。我々は問題定義に基づいて正しい帰納的不変量と誤った試みを区別できるランク付け器を設計した。ランク付けは対照的なランク付けに最適化されている。実験結果から、この再ランク機構は、生成した候補の正しい不変量ランキングを大幅に改善し、検証者への呼び出し数が顕著に減少することを示した。

関連論文リスト

Loop Invariant Generation: A Hybrid Framework of Reasoning optimised LLMs and SMT Solvers [2.0686733932673604]
現代, 推論に最適化された大規模言語モデルが, シンボリックアプローチよりも優れているかどうかを考察する。 OpenAIのO1、O1-mini、O3-miniを、Z3 SMTソルバと密結合した生成とチェックのパイプラインに統合します。私たちのフレームワークは、100%のカバレッジ(133のうち133)を達成し、133のうち107よりも優れています。
論文参考訳（メタデータ） (2025-08-01T08:15:15Z)
On the Query Complexity of Verifier-Assisted Language Generation [35.43462431990329]
本研究では,事前学習した言語モデル生成器を用いて制約付き生成を推論するフレームワークを開発する。検証者へのアクセスは、難解な問題(情報理論上または計算上)を、難解な問題にレンダリングすることができる。トークンワイド・リジェクション・サンプリングのような単純なアルゴリズムでさえ、検証器へのアクセスによる大きなメリットを享受できることを示す。
論文参考訳（メタデータ） (2025-02-17T18:46:32Z)
Inference Scaling for Bridging Retrieval and Augmented Generation [47.091086803980765]
大規模言語モデル(LLM)の出力を操る一般的なアプローチとして、検索拡張世代(RAG)が登場している。このようなバイアスは、推論スケーリングから、検索されたコンテキストの置換順序からの推論呼び出しの集約まで緩和可能であることを示す。 ROUGE-L は MS MARCO で,EM は HotpotQA ベンチマークで 7 ポイント向上した。
論文参考訳（メタデータ） (2024-12-14T05:06:43Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
検証や報酬モデルはしばしば、大きな言語モデル(LLM)の推論性能を高めるために使われる。本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。 GenRMは差別的, DPO 検証, LLM-as-a-Judge に優れていた。
論文参考訳（メタデータ） (2024-08-27T17:57:45Z)
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff [16.80314690163063]
大きな言語モデル(LLM)でソースコードを反復的に改善し、修復することは、1ショットで構築するには複雑すぎるプログラムを生成する一般的な方法として現れている。ここでは、リファインメントが探索と露見のトレードオフを露呈していることを示します。ほとんどのテストケースをパスするプログラムをリファイン化したり、考慮の少ないプログラムをリファインダでリファインダすることです。
論文参考訳（メタデータ） (2024-05-26T04:00:30Z)
Finding Inductive Loop Invariants using Large Language Models [14.846222005558666]
帰納ループ不変量を見つけることは決定不可能な問題である。実用化に向けた長い研究の歴史にもかかわらず、解決された問題には程遠い。本稿では,新たなソリューションを提供する上での大規模言語モデルの有用性について検討する。
論文参考訳（メタデータ） (2023-11-14T06:58:09Z)
Winning Prize Comes from Losing Tickets: Improve Invariant Learning by Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。 LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。 Invariant Learning (EVIL) における変数探索手法を提案する。
論文参考訳（メタデータ） (2023-10-25T06:10:57Z)
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文参考訳（メタデータ） (2023-05-24T00:10:15Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
Discovering Non-monotonic Autoregressive Orderings with Variational Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文参考訳（メタデータ） (2021-10-27T16:08:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。