Fugu-MT 論文翻訳(概要): CodeBC: A More Secure Large Language Model for Smart Contract Code Generation in Blockchain

論文の概要: CodeBC: A More Secure Large Language Model for Smart Contract Code Generation in Blockchain

arxiv url: http://arxiv.org/abs/2504.21043v1
Date: Mon, 28 Apr 2025 14:14:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-08 19:07:35.750648
Title: CodeBC: A More Secure Large Language Model for Smart Contract Code Generation in Blockchain
Title（参考訳）: CodeBC:ブロックチェーンにおけるスマートコントラクトコード生成のためのよりセキュアな大規模言語モデル
Authors: Lingxiang wang, Hainan Zhang, Qinnan Zhang, Ziwei Wang, Hongwei Zheng, Jin Dong, Zhiming Zheng,
Abstract要約: 大きな言語モデル(LLM)は、自然言語命令からコードを生成するのに優れていますが、セキュリティ上の脆弱性に対する理解が欠如しています。この制限により、特にブロックチェーンのスマートコントラクト開発のような高セキュリティプログラミングタスクにおいて、LLMが生成したコードのセキュリティリスクを回避することが難しくなる。ブロックチェーンでセキュアなスマートコントラクトを生成するように設計されたコード生成モデルであるCodeBCを紹介します。
参考スコア（独自算出の注目度）: 6.7475904578675285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) excel at generating code from natural language instructions, yet they often lack an understanding of security vulnerabilities. This limitation makes it difficult for LLMs to avoid security risks in generated code, particularly in high-security programming tasks such as smart contract development for blockchain. Researchers have attempted to enhance the vulnerability awareness of these models by training them to differentiate between vulnerable and fixed code snippets. However, this approach relies heavily on manually labeled vulnerability data, which is only available for popular languages like Python and C++. For low-resource languages like Solidity, used in smart contracts, large-scale annotated datasets are scarce and difficult to obtain. To address this challenge, we introduce CodeBC, a code generation model specifically designed for generating secure smart contracts in blockchain. CodeBC employs a three-stage fine-tuning approach based on CodeLlama, distinguishing itself from previous methods by not relying on pairwise vulnerability location annotations. Instead, it leverages vulnerability and security tags to teach the model the differences between vulnerable and secure code. During the inference phase, the model leverages security tags to generate secure and robust code. Experimental results demonstrate that CodeBC outperforms baseline models in terms of BLEU, CodeBLEU, and compilation pass rates, while significantly reducing vulnerability rates. These findings validate the effectiveness and cost-efficiency of our three-stage fine-tuning strategy, making CodeBC a promising solution for generating secure smart contract code.
Abstract（参考訳）: 大きな言語モデル(LLM)は、自然言語命令からコードを生成するのに優れていますが、セキュリティ上の脆弱性に対する理解が欠如しています。この制限により、特にブロックチェーンのスマートコントラクト開発のような高セキュリティプログラミングタスクにおいて、LLMが生成したコードのセキュリティリスクを回避することが難しくなる。研究者たちは、脆弱性のあるコードスニペットと固定されたコードスニペットを区別するようにトレーニングすることで、これらのモデルの脆弱性認識を強化しようと試みている。しかし、このアプローチは手動でラベル付けされた脆弱性データに大きく依存しており、PythonやC++のような一般的な言語でしか利用できない。スマートコントラクトで使用されるSolidityのような低リソース言語では、大規模なアノテートデータセットは少なく、入手が難しい。この課題に対処するために、ブロックチェーンでセキュアなスマートコントラクトを生成するように設計されたコード生成モデルであるCodeBCを紹介します。 CodeBCは、CodeLlamaに基づいた3段階の微調整アプローチを採用しており、ペアの脆弱性位置アノテーションを頼らずに、従来のメソッドと区別している。その代わり、脆弱性とセキュリティタグを活用して、脆弱性のあるコードとセキュアなコードの違いをモデルに教える。推論フェーズの間、モデルはセキュリティタグを利用してセキュアで堅牢なコードを生成する。実験結果によると、CodeBCはBLEU、CodeBLEU、コンパイルパスレートでベースラインモデルより優れており、脆弱性率も大幅に低下している。これらの結果から、3段階の微調整戦略の有効性とコスト効率が検証され、CodeBCはセキュアなスマートコントラクトコードを生成するための有望なソリューションとなる。

関連論文リスト

Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
Leveraging Large Language Models and Machine Learning for Smart Contract Vulnerability Detection [0.0]
我々は、モデル性能を比較するために、機械学習アルゴリズムを訓練、テストし、タイプに応じてスマートコントラクトコードを分類する。我々の研究は、機械学習と大規模言語モデルを組み合わせて、さまざまなスマートコントラクトの脆弱性を検出するリッチで解釈可能なフレームワークを提供します。
論文参考訳（メタデータ） (2025-01-04T08:32:53Z)
ProSec: Fortifying Code LLMs with Proactive Security Alignment [14.907702430331803]
コード固有の大規模言語モデル(LLM)は、現実世界のシステムに脆弱性をもたらす可能性がある。コードLLMをセキュアなコーディングプラクティスと整合させるために設計された,新たなセキュリティアライメントアプローチであるProSecを提案する。実験により、ProSecでトレーニングされたモデルは、以前の研究よりも25.2%から91.4%安全であることが示されている。
論文参考訳（メタデータ） (2024-11-19T22:00:01Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。 3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文参考訳（メタデータ） (2024-07-12T10:59:32Z)
Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文参考訳（メタデータ） (2024-07-02T16:13:21Z)
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文参考訳（メタデータ） (2024-05-24T04:35:13Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Robust Encodings: A Framework for Combating Adversarial Typos [85.70270979772388]
NLPシステムは入力の小さな摂動によって容易に騙される。このような混乱に対して防御するための既存の手順は、最悪の場合の攻撃に対して確実な堅牢性を提供する。モデルアーキテクチャに妥協を加えることなく、ロバスト性を保証するロブエン(RobEn)を導入します。
論文参考訳（メタデータ） (2020-05-04T01:28:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。