論文の概要: SPDZCoder: Teaching LLMs to Synthesize Privacy Computing Code without Massive Training Data
- arxiv url: http://arxiv.org/abs/2501.00363v1
- Date: Tue, 31 Dec 2024 09:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:03.320236
- Title: SPDZCoder: Teaching LLMs to Synthesize Privacy Computing Code without Massive Training Data
- Title(参考訳): SPDZCoder: 大規模なトレーニングデータなしでプライバシコンピューティングコードを合成するLLMを教える
- Authors: Xiaoning Dong, Peilin Xin, Wei Xu,
- Abstract要約: 本稿では,ルールベースのフレームワークであるSPDZCoderを提案する。
具体的には、SPDZCoderは翻訳段階と生成段階を分離し、異なるレベルで意味表現の違いを軽減することができる。
- 参考スコア(独自算出の注目度): 6.660249346977347
- License:
- Abstract: Privacy computing receives increasing attention but writing privacy computing code remains challenging for developers due to limited library functions that necessitate extensive function implementation from scratch as well as the data-oblivious requirement which contradicts intuitive thinking and usual practices of programmers. Large language models (LLMs) have demonstrated surprising capabilities in coding tasks and achieved state-of-the-art performance across many benchmarks. However, even with extensive prompting, existing LLMs struggle with code translation task for privacy computing, such as translating Python to MP-SPDZ, due to the scarcity of MP-SPDZ data required for effective pre-training or fine-tuning. To address the limitation, this paper proposes SPDZCoder, a rule-based framework to teach LLMs to synthesize privacy computing code without asking experts to write tons of code and by leveraging the instruction-following and in-context learning ability of LLMs. Specifically, SPDZCoder decouples the translation task into the refactoring stage and the generation stage, which can mitigate the semantic-expressing differences at different levels. In addition, SPDZCoder can further improve its performance by a feedback stage. SPDZCoder does not require fine-tuning since it adopts an in-context learning paradigm of LLMs. To evaluate SPDZCoder, we manually created a benchmark dataset, named SPDZEval, containing six classes of difficult tasks to implement in MP-SPDZ. We conduct experiments on SPDZEval and the experimental results shows that SPDZCoder achieves the state-of-the-art performance in pass@1 and pass@2 across six data splits. Specifically, SPDZCoder achieves an overall correctness of 85.94% and 92.01% in pass@1 and pass@2, respectively, significantly surpassing baselines (at most 30.35% and 49.84% in pass@1 and pass@2, respectively) by a large margin.
- Abstract(参考訳): プライバシコンピューティングは注目されているが、広範な関数の実装をゼロから必要とするようなライブラリ機能と、プログラマの直感的な思考と通常のプラクティスに反するデータ公開要件のために、開発者がプライバシコンピューティングコードを書くことは依然として難しい。
大規模言語モデル(LLM)は、コーディングタスクの驚くべき機能を示し、多くのベンチマークで最先端のパフォーマンスを達成した。
しかし、広範なプロンプトがあるにもかかわらず、既存のLLMは、効果的な事前学習や微調整に必要なMP-SPDZデータが不足しているため、PythonをMP-SPDZに翻訳するなど、プライバシコンピューティングのコード翻訳タスクに苦労している。
この制限に対処するため,SPDZCoderを提案する。SPDZCoderは,LLMに大量のコードを書き込むことなく,LLMの命令追従とコンテキスト内学習能力を活用することで,プライバシコンピューティングコードを合成するルールベースのフレームワークである。
具体的には、SPDZCoderは、翻訳タスクをリファクタリングステージと生成ステージに分離することで、異なるレベルでの意味表現の違いを軽減することができる。
さらに、SPDZCoderはフィードバック段階によってパフォーマンスをさらに向上させることができる。
SPDZCoderは、LLMのコンテキスト内学習パラダイムを採用するため、微調整を必要としない。
SPDZCoderを評価するために、MP-SPDZで実装する難しい6つのクラスを含むSPDZEvalというベンチマークデータセットを手動で作成した。
我々はSPDZEvalの実験を行い、実験結果からSPDZCoderが6つのデータ分割でpass@1とpass@2で最先端のパフォーマンスを達成することを示す。
具体的には、SPDZCoderはパス@1で85.94%、パス@2で92.01%という全体的な正当性を達成し、ベースライン(パス@1で30.35%、パス@2で49.84%)を大きく上回っている。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Self-Explained Keywords Empower Large Language Models for Code Generation [5.236633572296712]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
Sek(textbfSelf-textbfExplained textbfKeywords)は、LLM自体による問題記述における重要な用語を抽出し、説明する。
論文 参考訳(メタデータ) (2024-10-21T12:52:03Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。