論文の概要: SPDZCoder: Combining Expert Knowledge with LLMs for Generating Privacy-Computing Code
- arxiv url: http://arxiv.org/abs/2501.00363v2
- Date: Fri, 21 Mar 2025 12:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 15:40:09.89915
- Title: SPDZCoder: Combining Expert Knowledge with LLMs for Generating Privacy-Computing Code
- Title(参考訳): SPDZCoder: プライバシ計算コードを生成するためのエキスパート知識とLLMを組み合わせる
- Authors: Xiaoning Dong, Peilin Xin, Jia Li, Wei Xu,
- Abstract要約: この研究は、追加のトレーニングデータを必要としないプライバシ計算コードを生成するルールベースのフレームワークであるSPDZCoderを提案する。
SPDZCoderは、PythonとMP-SPDZのセマンティック表現の違いを表現するために、高品質なエキスパート知識の収集に厳格な手順を採用している。
大規模な実験によると、SPDZCoderは、pass@1とpass@2のベースラインを大幅に超え、優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 18.99235433752009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Privacy computing receives increasing attention but writing privacy computing code remains challenging for developers due to limited library functions, necessitating function implementation from scratch, and data-oblivious requirement, contradicting intuitive thinking and usual practices of programmers. Automating the generation of privacy computing code with Large Language Models can streamline development effort and lower the barrier to using privacy computing frameworks. However, existing LLMs still encounter challenges in code translation for privacy-preserving computation, such as translating Python to MP-SPDZ, due to the scarcity of MP-SPDZ data required for effective pre-training or fine-tuning. Moreover, the lack of a benchmark further complicates the evaluation of translation quality. To address the limitations, this work proposes SPDZCoder, a rule-based framework that combines LLMs with expert knowledge for generating privacy-computing code without requiring additional training data. Specifically, SPDZCoder employ a rigorous procedure for collecting high-quality expert knowledge to represent the semantic-expressing differences between Python and MP-SPDZ, and to derive transformation rules for translating Python to MP-SPDZ based on these knowledge. Then, SPDZCoder progressively converts Python code into MP-SPDZ code using transformation rules in a three stage pipeline. To evaluate SPDZCoder, we manually constructed a benchmark dataset, SPDZEval, which comprises six data splits, each representing a distinct class of challenging tasks in MP-SPDZ implementation. Extensive experiments show that SPDZCoder achieves superior performance, significantly surpassing baselines in pass@1 and pass@2. Specifically, SPDZCoder attains an overall correctness of 85.94% and 92.01% in pass@1 and pass@2, respectively, whereas the best-performing baseline achieves 63.58% and 76.36%, respectively.
- Abstract(参考訳): プライバシコンピューティングは注目を集めているが、ライブラリ機能に制限があり、機能の実装をスクラッチから必要としており、プログラマの直感的な思考と通常のプラクティスに反するデータ公開要件のために、開発者がプライバシコンピューティングコードを書くことは依然として困難である。
大きな言語モデルによるプライバシコンピューティングコード生成の自動化は、開発作業の合理化と、プライバシコンピューティングフレームワークの使用障壁の低減を可能にする。
しかし、既存のLLMは、効果的な事前トレーニングや微調整に必要なMP-SPDZデータが不足しているため、PythonをMP-SPDZに変換するなど、プライバシ保護計算のためのコード翻訳の課題に直面している。
さらに、ベンチマークの欠如により、翻訳品質の評価がさらに複雑になる。
この制限に対処するため、この研究はルールベースのフレームワークであるSPDZCoderを提案している。このフレームワークは、LLMと専門知識を組み合わせて、追加のトレーニングデータを必要としないプライバシ計算コードを生成する。
具体的には、SPDZCoderは、PythonとMP-SPDZのセマンティック表現の違いを表すために、高品質なエキスパート知識を集めるための厳密な手順を採用し、これらの知識に基づいてPythonをMP-SPDZに変換するための変換規則を導出する。
次に、SPDZCoderは3段階パイプラインの変換規則を用いて、PythonコードをMP-SPDZコードに変換する。
SPDZCoderを評価するために,MP-SPDZ実装において,6つのデータ分割からなるベンチマークデータセットであるSPDZEvalを手作業で構築した。
大規模な実験によると、SPDZCoderは、pass@1とpass@2のベースラインを大幅に超え、優れたパフォーマンスを実現している。
具体的には、SPDZCoderは、それぞれパス@1とパス@2で85.94%と92.01%の全体的な正当性を達成し、最高のパフォーマンスのベースラインは63.58%と76.36%である。
関連論文リスト
- ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。
Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。
本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文 参考訳(メタデータ) (2025-03-27T23:08:53Z) - Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。
また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。
その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文 参考訳(メタデータ) (2024-12-06T17:40:38Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Distinguishing LLM-generated from Human-written Code by Contrastive Learning [5.553326595990857]
大規模言語モデル(LLM)は、様々なタスクに対して高品質なコンテンツを生成する能力があることが証明されたため、大きな注目を集めている。
ニュース、教育、ソフトウェア工学など、さまざまな分野における潜在的なリスクに対する懸念が高まっている。
コントラスト学習フレームワークとUniXcoderで構築したセマンティックエンコーダに基づく,新しいChatGPT生成コード検出器CodeGPTSensorを提案する。
論文 参考訳(メタデータ) (2024-11-07T13:39:14Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Self-Explained Keywords Empower Large Language Models for Code Generation [5.236633572296712]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
Sek(textbfSelf-textbfExplained textbfKeywords)は、LLM自体による問題記述における重要な用語を抽出し、説明する。
論文 参考訳(メタデータ) (2024-10-21T12:52:03Z) - Encryption-Friendly LLM Architecture [11.386436468650016]
ホモモルフィック暗号(homomorphic encryption, HE)は、暗号状態における算術演算をサポートする暗号プロトコルである。
本稿では,パーソナライズされた(プライベートな)微調整による推論を重視した改良型HE-Friendly Transformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-03T13:48:35Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code [13.135962181354465]
コード監査は、開発済みのコードが標準、規制、著作権保護に準拠していることを保証する。
ソフトウェア開発プロセスにおけるコーディングアシスタントとしての最近のLarge Language Models(LLM)の出現は、コード監査に新たな課題をもたらしている。
LLMのトレーニングデータセットにコードを含むことを検出するモデルに依存しない、解釈可能な方法であるTraWiCを提案する。
論文 参考訳(メタデータ) (2024-02-14T16:41:35Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - How to get better embeddings with code pre-trained models? An empirical
study [6.220333404184779]
下流分類タスクの埋め込みを生成するために,5つの異なるコード事前訓練モデル(PTM)について検討する。
特別なトークンによって得られた埋め込みは、コードスニペット全体の意味情報を十分に集約していないことが分かりました。
PTMの事前学習と同様、コードデータとテキストデータをマージして得られるコード埋め込みの品質は低く、よりリッチなセマンティック情報を保証できない。
論文 参考訳(メタデータ) (2023-11-14T10:44:21Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。