論文の概要: SPDZCoder: Combining Expert Knowledge with LLMs for Generating Privacy-Computing Code
- arxiv url: http://arxiv.org/abs/2501.00363v2
- Date: Fri, 21 Mar 2025 12:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:54:35.575896
- Title: SPDZCoder: Combining Expert Knowledge with LLMs for Generating Privacy-Computing Code
- Title(参考訳): SPDZCoder: プライバシ計算コードを生成するためのエキスパート知識とLLMを組み合わせる
- Authors: Xiaoning Dong, Peilin Xin, Jia Li, Wei Xu,
- Abstract要約: この研究は、追加のトレーニングデータを必要としないプライバシ計算コードを生成するルールベースのフレームワークであるSPDZCoderを提案する。
SPDZCoderは、PythonとMP-SPDZのセマンティック表現の違いを表現するために、高品質なエキスパート知識の収集に厳格な手順を採用している。
大規模な実験によると、SPDZCoderは、pass@1とpass@2のベースラインを大幅に超え、優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 18.99235433752009
- License:
- Abstract: Privacy computing receives increasing attention but writing privacy computing code remains challenging for developers due to limited library functions, necessitating function implementation from scratch, and data-oblivious requirement, contradicting intuitive thinking and usual practices of programmers. Automating the generation of privacy computing code with Large Language Models can streamline development effort and lower the barrier to using privacy computing frameworks. However, existing LLMs still encounter challenges in code translation for privacy-preserving computation, such as translating Python to MP-SPDZ, due to the scarcity of MP-SPDZ data required for effective pre-training or fine-tuning. Moreover, the lack of a benchmark further complicates the evaluation of translation quality. To address the limitations, this work proposes SPDZCoder, a rule-based framework that combines LLMs with expert knowledge for generating privacy-computing code without requiring additional training data. Specifically, SPDZCoder employ a rigorous procedure for collecting high-quality expert knowledge to represent the semantic-expressing differences between Python and MP-SPDZ, and to derive transformation rules for translating Python to MP-SPDZ based on these knowledge. Then, SPDZCoder progressively converts Python code into MP-SPDZ code using transformation rules in a three stage pipeline. To evaluate SPDZCoder, we manually constructed a benchmark dataset, SPDZEval, which comprises six data splits, each representing a distinct class of challenging tasks in MP-SPDZ implementation. Extensive experiments show that SPDZCoder achieves superior performance, significantly surpassing baselines in pass@1 and pass@2. Specifically, SPDZCoder attains an overall correctness of 85.94% and 92.01% in pass@1 and pass@2, respectively, whereas the best-performing baseline achieves 63.58% and 76.36%, respectively.
- Abstract(参考訳): プライバシコンピューティングは注目を集めているが、ライブラリ機能に制限があり、機能の実装をスクラッチから必要としており、プログラマの直感的な思考と通常のプラクティスに反するデータ公開要件のために、開発者がプライバシコンピューティングコードを書くことは依然として困難である。
大きな言語モデルによるプライバシコンピューティングコード生成の自動化は、開発作業の合理化と、プライバシコンピューティングフレームワークの使用障壁の低減を可能にする。
しかし、既存のLLMは、効果的な事前トレーニングや微調整に必要なMP-SPDZデータが不足しているため、PythonをMP-SPDZに変換するなど、プライバシ保護計算のためのコード翻訳の課題に直面している。
さらに、ベンチマークの欠如により、翻訳品質の評価がさらに複雑になる。
この制限に対処するため、この研究はルールベースのフレームワークであるSPDZCoderを提案している。このフレームワークは、LLMと専門知識を組み合わせて、追加のトレーニングデータを必要としないプライバシ計算コードを生成する。
具体的には、SPDZCoderは、PythonとMP-SPDZのセマンティック表現の違いを表すために、高品質なエキスパート知識を集めるための厳密な手順を採用し、これらの知識に基づいてPythonをMP-SPDZに変換するための変換規則を導出する。
次に、SPDZCoderは3段階パイプラインの変換規則を用いて、PythonコードをMP-SPDZコードに変換する。
SPDZCoderを評価するために,MP-SPDZ実装において,6つのデータ分割からなるベンチマークデータセットであるSPDZEvalを手作業で構築した。
大規模な実験によると、SPDZCoderは、pass@1とpass@2のベースラインを大幅に超え、優れたパフォーマンスを実現している。
具体的には、SPDZCoderは、それぞれパス@1とパス@2で85.94%と92.01%の全体的な正当性を達成し、最高のパフォーマンスのベースラインは63.58%と76.36%である。
関連論文リスト
- Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。
また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。
その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文 参考訳(メタデータ) (2024-12-06T17:40:38Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Self-Explained Keywords Empower Large Language Models for Code Generation [5.236633572296712]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
Sek(textbfSelf-textbfExplained textbfKeywords)は、LLM自体による問題記述における重要な用語を抽出し、説明する。
論文 参考訳(メタデータ) (2024-10-21T12:52:03Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。