論文の概要: SPDZCoder: Teaching LLMs to Synthesize Privacy Computing Code without Massive Training Data
- arxiv url: http://arxiv.org/abs/2501.00363v1
- Date: Tue, 31 Dec 2024 09:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 16:54:31.576791
- Title: SPDZCoder: Teaching LLMs to Synthesize Privacy Computing Code without Massive Training Data
- Title(参考訳): SPDZCoder: 大規模なトレーニングデータなしでプライバシコンピューティングコードを合成するLLMを教える
- Authors: Xiaoning Dong, Peilin Xin, Wei Xu,
- Abstract要約: 本稿では,ルールベースのフレームワークであるSPDZCoderを提案する。
具体的には、SPDZCoderは翻訳段階と生成段階を分離し、異なるレベルで意味表現の違いを軽減することができる。
- 参考スコア(独自算出の注目度): 6.660249346977347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Privacy computing receives increasing attention but writing privacy computing code remains challenging for developers due to limited library functions that necessitate extensive function implementation from scratch as well as the data-oblivious requirement which contradicts intuitive thinking and usual practices of programmers. Large language models (LLMs) have demonstrated surprising capabilities in coding tasks and achieved state-of-the-art performance across many benchmarks. However, even with extensive prompting, existing LLMs struggle with code translation task for privacy computing, such as translating Python to MP-SPDZ, due to the scarcity of MP-SPDZ data required for effective pre-training or fine-tuning. To address the limitation, this paper proposes SPDZCoder, a rule-based framework to teach LLMs to synthesize privacy computing code without asking experts to write tons of code and by leveraging the instruction-following and in-context learning ability of LLMs. Specifically, SPDZCoder decouples the translation task into the refactoring stage and the generation stage, which can mitigate the semantic-expressing differences at different levels. In addition, SPDZCoder can further improve its performance by a feedback stage. SPDZCoder does not require fine-tuning since it adopts an in-context learning paradigm of LLMs. To evaluate SPDZCoder, we manually created a benchmark dataset, named SPDZEval, containing six classes of difficult tasks to implement in MP-SPDZ. We conduct experiments on SPDZEval and the experimental results shows that SPDZCoder achieves the state-of-the-art performance in pass@1 and pass@2 across six data splits. Specifically, SPDZCoder achieves an overall correctness of 85.94% and 92.01% in pass@1 and pass@2, respectively, significantly surpassing baselines (at most 30.35% and 49.84% in pass@1 and pass@2, respectively) by a large margin.
- Abstract(参考訳): プライバシコンピューティングは注目されているが、広範な関数の実装をゼロから必要とするようなライブラリ機能と、プログラマの直感的な思考と通常のプラクティスに反するデータ公開要件のために、開発者がプライバシコンピューティングコードを書くことは依然として難しい。
大規模言語モデル(LLM)は、コーディングタスクの驚くべき機能を示し、多くのベンチマークで最先端のパフォーマンスを達成した。
しかし、広範なプロンプトがあるにもかかわらず、既存のLLMは、効果的な事前学習や微調整に必要なMP-SPDZデータが不足しているため、PythonをMP-SPDZに翻訳するなど、プライバシコンピューティングのコード翻訳タスクに苦労している。
この制限に対処するため,SPDZCoderを提案する。SPDZCoderは,LLMに大量のコードを書き込むことなく,LLMの命令追従とコンテキスト内学習能力を活用することで,プライバシコンピューティングコードを合成するルールベースのフレームワークである。
具体的には、SPDZCoderは、翻訳タスクをリファクタリングステージと生成ステージに分離することで、異なるレベルでの意味表現の違いを軽減することができる。
さらに、SPDZCoderはフィードバック段階によってパフォーマンスをさらに向上させることができる。
SPDZCoderは、LLMのコンテキスト内学習パラダイムを採用するため、微調整を必要としない。
SPDZCoderを評価するために、MP-SPDZで実装する難しい6つのクラスを含むSPDZEvalというベンチマークデータセットを手動で作成した。
我々はSPDZEvalの実験を行い、実験結果からSPDZCoderが6つのデータ分割でpass@1とpass@2で最先端のパフォーマンスを達成することを示す。
具体的には、SPDZCoderはパス@1で85.94%、パス@2で92.01%という全体的な正当性を達成し、ベースライン(パス@1で30.35%、パス@2で49.84%)を大きく上回っている。
関連論文リスト
- ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。
Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。
本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文 参考訳(メタデータ) (2025-03-27T23:08:53Z) - Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。
また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。
その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文 参考訳(メタデータ) (2024-12-06T17:40:38Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Distinguishing LLM-generated from Human-written Code by Contrastive Learning [5.553326595990857]
大規模言語モデル(LLM)は、様々なタスクに対して高品質なコンテンツを生成する能力があることが証明されたため、大きな注目を集めている。
ニュース、教育、ソフトウェア工学など、さまざまな分野における潜在的なリスクに対する懸念が高まっている。
コントラスト学習フレームワークとUniXcoderで構築したセマンティックエンコーダに基づく,新しいChatGPT生成コード検出器CodeGPTSensorを提案する。
論文 参考訳(メタデータ) (2024-11-07T13:39:14Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Self-Explained Keywords Empower Large Language Models for Code Generation [5.236633572296712]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
Sek(textbfSelf-textbfExplained textbfKeywords)は、LLM自体による問題記述における重要な用語を抽出し、説明する。
論文 参考訳(メタデータ) (2024-10-21T12:52:03Z) - Encryption-Friendly LLM Architecture [11.386436468650016]
ホモモルフィック暗号(homomorphic encryption, HE)は、暗号状態における算術演算をサポートする暗号プロトコルである。
本稿では,パーソナライズされた(プライベートな)微調整による推論を重視した改良型HE-Friendly Transformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-03T13:48:35Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code [13.135962181354465]
コード監査は、開発済みのコードが標準、規制、著作権保護に準拠していることを保証する。
ソフトウェア開発プロセスにおけるコーディングアシスタントとしての最近のLarge Language Models(LLM)の出現は、コード監査に新たな課題をもたらしている。
LLMのトレーニングデータセットにコードを含むことを検出するモデルに依存しない、解釈可能な方法であるTraWiCを提案する。
論文 参考訳(メタデータ) (2024-02-14T16:41:35Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - How to get better embeddings with code pre-trained models? An empirical
study [6.220333404184779]
下流分類タスクの埋め込みを生成するために,5つの異なるコード事前訓練モデル(PTM)について検討する。
特別なトークンによって得られた埋め込みは、コードスニペット全体の意味情報を十分に集約していないことが分かりました。
PTMの事前学習と同様、コードデータとテキストデータをマージして得られるコード埋め込みの品質は低く、よりリッチなセマンティック情報を保証できない。
論文 参考訳(メタデータ) (2023-11-14T10:44:21Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。