Fugu-MT 論文翻訳(概要): From Evaluation to Enhancement: Large Language Models for Zero-Knowledge Proof Code Generation

論文の概要: From Evaluation to Enhancement: Large Language Models for Zero-Knowledge Proof Code Generation

arxiv url: http://arxiv.org/abs/2509.11708v1
Date: Mon, 15 Sep 2025 09:07:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-16 17:26:23.206305
Title: From Evaluation to Enhancement: Large Language Models for Zero-Knowledge Proof Code Generation
Title（参考訳）: 評価から強化へ:ゼロ知識証明コード生成のための大規模言語モデル
Authors: Zhantong Xue, Pingchuan Ma, Zhaoyu Wang, Shuai Wang,
Abstract要約: ZKP(Zero-knowledge proof)は、プライバシ保護認証やブロックチェーンのスケーラビリティ、セキュアファイナンスなど、ますます多くのドメインにデプロイされている。主流プログラミングとは異なり、ZK開発には有限場算術、制約システム、ガジェットに関する推論が必要である。エージェントフレームワークであるtextscZK-Coder を導入し,制約スケッチ,ガイド付き検索,対話的修復を行う。
参考スコア（独自算出の注目度）: 8.358179599532592
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Zero-knowledge proofs (ZKPs) are increasingly deployed in domains such as privacy-preserving authentication, blockchain scalability, and secure finance. However, authoring ZK programs remains challenging: unlike mainstream programming, ZK development requires reasoning about finite field arithmetic, constraint systems, and gadgets, making it knowledge-intensive and error-prone. While large language models (LLMs) have demonstrated strong code generation capabilities in general-purpose languages, their effectiveness for ZK programming, where correctness hinges on both language mastery and gadget-level reasoning, remains unexplored. To address this gap, we propose \textsc{ZK-Eval}, a domain-specific evaluation pipeline that probes LLM capabilities at three levels: language knowledge, gadget competence, and end-to-end program generation. Our evaluation of four state-of-the-art LLMs reveals that models excel at surface-level syntax but struggle with gadget usage and semantic correctness, often yielding incorrect programs. Based on these insights, we introduce \textsc{ZK-Coder}, an agentic framework that augments LLMs with constraint sketching, guided retrieval, and interactive repair. Experiments on Circom and Noir show substantial gains, with success rates improving from 17.35\% to 83.38\% and from 32.21\% to 90.05\%, respectively. With \textsc{ZK-Eval} and \textsc{ZK-Coder}, we establish a foundation for systematically measuring and augmenting LLMs in ZK code generation to lower barriers for practitioners and advance trustworthy computation.
Abstract（参考訳）: ZKP(Zero-knowledge proof)は、プライバシ保護認証やブロックチェーンのスケーラビリティ、セキュアファイナンスなど、ますます多くのドメインにデプロイされている。しかし、ZKプログラムのオーサリングは、主流のプログラミングとは異なり、有限場算術、制約システム、ガジェットの推論を必要とするため、知識集約的でエラーを起こしやすい。大きな言語モデル(LLM)は汎用言語で強力なコード生成能力を示しているが、ZKプログラミングの有効性は、言語習得とガジェットレベルの推論の両方に影響を及ぼす。このギャップに対処するために,言語知識,ガジェット能力,エンドツーエンドプログラム生成の3段階でLLM機能を探索するドメイン固有評価パイプラインである‘textsc{ZK-Eval} を提案する。現状の4つのLCMを評価した結果,モデルが表層構文で優れているが,ガジェットの使用法や意味的正確性に苦慮し,しばしば誤ったプログラムを生成することが判明した。これらの知見に基づき,制約スケッチ,ガイド付き検索,対話的修復によりLSMを増強するエージェントフレームワークであるtextsc{ZK-Coder}を紹介する。 Circom と Noir の実験では、それぞれ 17.35 % から 83.38 % に改善され、32.21 % から 90.05 % に改善された。本稿では,ZKコード生成におけるLLMを体系的に測定・拡張し,実践者の障壁を低くし,信頼性の高い計算を進めるための基盤を確立する。

関連論文リスト

TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。 TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文参考訳（メタデータ） (2025-08-07T15:11:17Z)
Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文参考訳（メタデータ） (2025-02-11T01:12:11Z)
Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。 SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。 UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文参考訳（メタデータ） (2024-06-05T22:16:19Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。 CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文参考訳（メタデータ） (2023-10-25T03:58:49Z)
ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文参考訳（メタデータ） (2023-04-27T16:38:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。