Fugu-MT 論文翻訳(概要): CodeCipher: Learning to Obfuscate Source Code Against LLMs

論文の概要: CodeCipher: Learning to Obfuscate Source Code Against LLMs

arxiv url: http://arxiv.org/abs/2410.05797v1
Date: Tue, 8 Oct 2024 08:28:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 12:49:50.741924
Title: CodeCipher: Learning to Obfuscate Source Code Against LLMs
Title（参考訳）: CodeCipher: LLMに対するソースコードの難読化を学ぶ
Authors: Yalan Lin, Chengcheng Wan, Yixiong Fang, Xiaodong Gu,
Abstract要約: 我々は,LLMからの応答を保存しながら,コードからプライバシを乱す新しい方法であるCodeCipherを提案する。 CodeCipher は LLM の埋め込み行列を変換し、各行が元の行列内の別の単語に対応するようにし、難読化ソースコードのためのトークンとトークンの混同マッピングを生成する。その結果,LLMの性能を保ちながらソースコードのプライバシを混乱させることに成功した。
参考スコア（独自算出の注目度）: 5.872773591957006
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While large code language models have made significant strides in AI-assisted coding tasks, there are growing concerns about privacy challenges. The user code is transparent to the cloud LLM service provider, inducing risks of unauthorized training, reading, and execution of the user code. In this paper, we propose CodeCipher, a novel method that perturbs privacy from code while preserving the original response from LLMs. CodeCipher transforms the LLM's embedding matrix so that each row corresponds to a different word in the original matrix, forming a token-to-token confusion mapping for obfuscating source code. The new embedding matrix is optimized by minimizing the task-specific loss function. To tackle the challenge of the discrete and sparse nature of word vector spaces, CodeCipher adopts a discrete optimization strategy that aligns the updated vector to the nearest valid token in the vocabulary before each gradient update. We demonstrate the effectiveness of our approach on three AI-assisted coding tasks including code completion, summarization, and translation. Results show that our model successfully confuses the privacy in source code while preserving the original LLM's performance.
Abstract（参考訳）: 大規模コード言語モデルは、AI支援コーディングタスクにおいて大きな進歩を遂げてきたが、プライバシー問題への懸念が高まっている。ユーザコードはクラウドLLMサービスプロバイダに対して透過的であり、ユーザコードの不正なトレーニング、読み取り、実行のリスクを誘発する。本稿では,LLMからの応答を保存しながら,コードからプライバシを乱す新しい手法であるCodeCipherを提案する。 CodeCipher は LLM の埋め込み行列を変換し、各行が元の行列内の別の単語に対応するようにし、難読化ソースコードのためのトークンとトークンの混同マッピングを生成する。新しい埋め込み行列はタスク固有の損失関数を最小限にすることで最適化される。単語ベクトル空間の離散的かつスパースな性質の課題に対処するため、CodeCipherは、各勾配更新の前に、更新されたベクトルを語彙内の最も近い有効なトークンに整合させる離散最適化戦略を採用する。コード補完,要約,翻訳を含む3つのAI支援コーディングタスクに対して,本手法の有効性を実証する。その結果,LLMの性能を保ちながらソースコードのプライバシを混乱させることに成功した。

関連論文リスト

ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
TFHE-Coder: Evaluating LLM-agentic Fully Homomorphic Encryption Code Generation [10.597643264309415]
TFHE (Homomorphic Encryption over the Torus) は、復号化せずにデータを暗号化する。マシンラーニングのプライバシ保護、セキュアなマルチパーティ計算、プライベートブロックチェーントランザクション、セキュアな医療診断といった可能性にもかかわらず、暗号化の複雑さとユーザビリティの問題により、その採用は制限されている。この研究は、TFHEコード生成の最初のベンチマークを確立し、ドメイン固有のフィードバックで拡張されたLLMが、FHEコード生成の専門的ギャップを埋める方法を示している。
論文参考訳（メタデータ） (2025-03-15T17:57:44Z)
Detection of LLM-Paraphrased Code and Identification of the Responsible LLM Using Coding Style Features [5.774786149181392]
Aliciousのユーザは、大きな言語モデル(LLM)を使って、オリジナルのものとよく似ているプロプライエタリなコードのパラフレーズ付きバージョンを生成することができる。 LPcodedecは人書きとLLM生成コード間のパラフレーズ関係を識別する手法である。 LPcodedecは2つのタスクで最高のベースラインを達成し、F1スコアは2.64%、F1スコアは15.17%向上し、それぞれ1,343xと213xのスピードアップを達成した。
論文参考訳（メタデータ） (2025-02-25T00:58:06Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。 3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文参考訳（メタデータ） (2024-07-12T10:59:32Z)
InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では,逆ではなくコードスニペットからの命令を要約したINVERSE-INSTRUCTを提案する。 InverseCoder というコード LLM のシリーズを提示する。これは、広範囲のベンチマークにおいて、元のコード LLM のパフォーマンスを上回ります。
論文参考訳（メタデータ） (2024-07-08T08:00:05Z)
Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE) PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文参考訳（メタデータ） (2024-07-03T14:34:03Z)
ESALE: Enhancing Code-Summary Alignment Learning for Source Code Summarization [21.886950861445122]
コード要約は、与えられたコードスニペットに対して簡潔な自然言語要約を自動的に生成することを目的としている。本稿では,要約に焦点をあてたタスクに基づいて,コード要約を改善する新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-01T03:06:51Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
JumpCoder: Go Beyond Autoregressive Coder via Online Modification [18.9350072969148]
JumpCoderは、人間に似たオンライン修正と非逐次生成が可能な新しいモデルに依存しないフレームワークで、LLMを増強する。 JumpCoderの背景にある重要なアイデアは、生成時に必要に応じて、現在生成されたコードに新しいコードを挿入することである。
論文参考訳（メタデータ） (2024-01-15T18:04:29Z)
Memorization for Good: Encryption with Autoregressive Language Models [8.645826579841692]
自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。自己回帰的LMは任意のデータをコンパクトな実数値ベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とgreedy復号によってベクトルを元のメッセージ(すなわち復号)に無作為に復号できることを示す。
論文参考訳（メタデータ） (2023-05-15T05:42:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。