論文の概要: Combining Fine-Tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications
- arxiv url: http://arxiv.org/abs/2403.16073v1
- Date: Sun, 24 Mar 2024 09:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 17:45:31.998008
- Title: Combining Fine-Tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications
- Title(参考訳): 直感的スマートコントラクト監査のためのファインチューニングとLCMベースエージェントの併用
- Authors: Wei Ma, Daoyuan Wu, Yuqiang Sun, Tianwen Wang, Shangqing Liu, Jian Zhang, Yue Xue, Yang Liu,
- Abstract要約: TrustLLMは、微調整とLLMベースのエージェントを組み合わせて、直感的なスマートコントラクト監査と正当化を行う。
263の実際のスマートコントラクトの脆弱性のデータセット上で、TrustLLMはF1スコアが91.21%、精度が91.11%に達する。
- 参考スコア(独自算出の注目度): 18.138452572457552
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Smart contracts are decentralized applications built atop blockchains like Ethereum. Recent research has shown that large language models (LLMs) have potential in auditing smart contracts, but the state-of-the-art indicates that even GPT-4 can achieve only 30% precision (when both decision and justification are correct). This is likely because off-the-shelf LLMs were primarily pre-trained on a general text/code corpus and not fine-tuned on the specific domain of Solidity smart contract auditing. In this paper, we propose TrustLLM, a general framework that combines fine-tuning and LLM-based agents for intuitive smart contract auditing with justifications. Specifically, TrustLLM is inspired by the observation that expert human auditors first perceive what could be wrong and then perform a detailed analysis of the code to identify the cause. As such, TrustLLM employs a two-stage fine-tuning approach: it first tunes a Detector model to make decisions and then tunes a Reasoner model to generate causes of vulnerabilities. However, fine-tuning alone faces challenges in accurately identifying the optimal cause of a vulnerability. Therefore, we introduce two LLM-based agents, the Ranker and Critic, to iteratively select and debate the most suitable cause of vulnerability based on the output of the fine-tuned Reasoner model. To evaluate TrustLLM, we collected a balanced dataset with 1,734 positive and 1,810 negative samples to fine-tune TrustLLM. We then compared it with traditional fine-tuned models (CodeBERT, GraphCodeBERT, CodeT5, and UnixCoder) as well as prompt learning-based LLMs (GPT4, GPT-3.5, and CodeLlama-13b/34b). On a dataset of 263 real smart contract vulnerabilities, TrustLLM achieves an F1 score of 91.21% and an accuracy of 91.11%. The causes generated by TrustLLM achieved a consistency of about 38% compared to the ground truth causes.
- Abstract(参考訳): スマートコントラクトはEthereumのようなブロックチェーン上に構築された分散アプリケーションである。
近年の研究では、大きな言語モデル(LLM)がスマートコントラクトを監査する可能性があることが示されているが、現状では、GPT-4でさえ30%の精度しか達成できない(決定と正当化が正しければ)。
これは、既製のLLMが主に一般的なテキスト/コードコーパスで事前訓練されており、Solidityスマートコントラクト監査の特定のドメインで微調整されていないためだろう。
本稿では,直感的なスマートコントラクト監査のための微調整エージェントとLLMベースのエージェントを組み合わせた汎用フレームワークであるTrustLLMを提案する。
具体的には、TrustLLMは、専門家の人間監査官がまず何が間違っているかを理解し、その原因を特定するためのコードの詳細な分析を行うという観察にインスパイアされている。
そのため、TrustLLMは2段階の微調整アプローチを採用している。まずはディクタモデルをチューニングし、次にReasonerモデルをチューニングして脆弱性の原因を生成する。
しかし、微調整だけでは、脆弱性の最適な原因を正確に特定することの難しさに直面する。
そこで我々はLLMをベースとした2つのエージェントであるRancherとCricを導入し、微調整されたReasonerモデルの出力に基づいて、脆弱性の最も適切な原因を反復的に選択し、議論する。
TrustLLMを評価するために、TrustLLMに1,734の正と負のサンプル1,810のバランスデータセットを収集した。
次に、従来の微調整モデル(CodeBERT、GraphCodeBERT、CodeT5、UnixCoder)と比較し、学習ベースのLCM(GPT4、GPT-3.5、CodeLlama-13b/34b)と比較した。
263の実際のスマートコントラクトの脆弱性のデータセット上で、TrustLLMはF1スコアが91.21%、精度が91.11%に達する。
TrustLLMが生成した原因は、根本原因と比較して約38%の一貫性を達成した。
関連論文リスト
- Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - Chain-of-Thought Unfaithfulness as Disguised Accuracy [10.475314139367462]
CoT(Chain-of-Thought)世代は、大きな言語モデルの内部計算(LLM)と一致している。
CoT忠実性の代用として、arXiv:2307.13702 はモデルが CoT に依存しているかどうかを測定する指標を提案する。
論文 参考訳(メタデータ) (2024-02-22T17:23:53Z) - Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [102.00359477458029]
本稿では,ニューラル・シンボリック統合法について述べる。
LLMフリーのシンボリック・ソルバを用いて、知識を用いた熟考的推論を行う。
論文 参考訳(メタデータ) (2023-11-16T11:26:21Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - An Empirical Study of AI-based Smart Contract Creation [4.801455786801489]
スマートコントラクト生成のためのChatGPTやGoogle Palm2のような大規模言語モデル(LLM)は、AIペアプログラマとして初めて確立されたインスタンスであるようだ。
本研究の目的は,LLMがスマートコントラクトに対して提供する生成コードの品質を評価することである。
論文 参考訳(メタデータ) (2023-08-05T21:38:57Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - Generating with Confidence: Uncertainty Quantification for Black-box
Large Language Models [42.30291103270481]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られる可能性のある選択的なNLGに適用し、いくつかの信頼/不確実性指標を提案し、比較する。
その結果, セマンティックな分散の簡易な測定基準が, LLM応答の質の信頼性の高い予測因子であることが判明した。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - A Bytecode-based Approach for Smart Contract Classification [10.483992071557195]
ブロックチェーンプラットフォームにデプロイされるスマートコントラクトの数は指数関数的に増えているため、ユーザは手動のスクリーニングによって望ましいサービスを見つけることが難しくなっている。
スマートコントラクト分類に関する最近の研究は、契約ソースコードに基づく自然言語処理(NLP)ソリューションに焦点を当てている。
本稿では,これらの問題を解決するために,ソースコードの代わりにコントラクトバイトコードの特徴に基づく分類モデルを提案する。
論文 参考訳(メタデータ) (2021-05-31T03:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。