論文の概要: Detect Llama -- Finding Vulnerabilities in Smart Contracts using Large Language Models
- arxiv url: http://arxiv.org/abs/2407.08969v1
- Date: Fri, 12 Jul 2024 03:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:56:38.746392
- Title: Detect Llama -- Finding Vulnerabilities in Smart Contracts using Large Language Models
- Title(参考訳): Llamaの検出 - 大規模言語モデルによるスマートコントラクトの脆弱性検出
- Authors: Peter Ince, Xiapu Luo, Jiangshan Yu, Joseph K. Liu, Xiaoning Du,
- Abstract要約: 我々は、スマートコントラクト脆弱性検出において、GPT-4より優れたオープンソースモデルを微調整する。
バイナリ分類(つまり、このスマートコントラクトは脆弱か?)では、GPT-3.5FTとTect Llama-Foundationという2つの最高のパフォーマンスモデルがF1スコアを達成しています。
GPT-3.5FT と Detect Llama - Foundation はいずれも GPT-4 と GPT-4 Turbo を大きく上回っている。
- 参考スコア(独自算出の注目度): 27.675558033502565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we test the hypothesis that although OpenAI's GPT-4 performs well generally, we can fine-tune open-source models to outperform GPT-4 in smart contract vulnerability detection. We fine-tune two models from Meta's Code Llama and a dataset of 17k prompts, Detect Llama - Foundation and Detect Llama - Instruct, and we also fine-tune OpenAI's GPT-3.5 Turbo model (GPT-3.5FT). We then evaluate these models, plus a random baseline, on a testset we develop against GPT-4, and GPT-4 Turbo's, detection of eight vulnerabilities from the dataset and the two top identified vulnerabilities - and their weighted F1 scores. We find that for binary classification (i.e., is this smart contract vulnerable?), our two best-performing models, GPT-3.5FT and Detect Llama - Foundation, achieve F1 scores of $0.776$ and $0.68$, outperforming both GPT-4 and GPT-4 Turbo, $0.66$ and $0.675$. For the evaluation against individual vulnerability identification, our top two models, GPT-3.5FT and Detect Llama - Foundation, both significantly outperformed GPT-4 and GPT-4 Turbo in both weighted F1 for all vulnerabilities ($0.61$ and $0.56$ respectively against GPT-4's $0.218$ and GPT-4 Turbo's $0.243$) and weighted F1 for the top two identified vulnerabilities ($0.719$ for GPT-3.5FT, $0.674$ for Detect Llama - Foundation against GPT-4's $0.363$ and GPT-4 Turbo's $0.429$).
- Abstract(参考訳): 本稿では, OpenAI の GPT-4 がよく動作するが, スマートコントラクトの脆弱性検出において, GPT-4 よりも優れたオープンソースモデルを微調整できるという仮説を検証した。
我々はMetaのCode Llamaと17kプロンプトのデータセット、Llama - Foundation と Detect Llama - Instruct の2つのモデルを微調整し、OpenAI の GPT-3.5 Turbo Model (GPT-3.5FT) を微調整する。
次に、これらのモデルとランダムなベースラインを、GPT-4とGPT-4のTurboに対して開発したテストセットに基づいて評価し、データセットから8つの脆弱性を検出し、2つの最上位の脆弱性(重み付きF1スコア)を検出します。
バイナリ分類(つまり、このスマートコントラクトは脆弱か?)では、GPT-3.5FT と Detect Llama - Foundation の2つの最高のパフォーマンスモデルが、0.776$と0.68$のF1スコアを達成し、GPT-4とGPT-4 Turboを0.66$と0.675$で上回ります。
GPT-4は0.218ドル、GPT-4は0.243ドル、F1は0.719ドル、GPT-3.5FTは0.674ドル、Llamaは0.363ドル、GPT-4は0.429ドルだった。
関連論文リスト
- Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks [65.84623493488633]
本稿では,GPT-4oのジェイルブレイク攻撃に対する厳密な評価を行う。
新たに導入されたオーディオモダリティは、GPT-4oに対するジェイルブレイク攻撃のための新しい攻撃ベクトルを開く。
既存のブラックボックスマルチモーダル・ジェイルブレイク攻撃は、GPT-4oとGPT-4Vに対してほとんど効果がない。
論文 参考訳(メタデータ) (2024-06-10T14:18:56Z) - Detection of Conspiracy Theories Beyond Keyword Bias in German-Language Telegram Using Large Language Models [0.0]
この研究は、ドイツのテレグラムメッセージにおける陰謀論を検出するという課題に対処する。
BERT型モデルを用いた教師付き微調整手法とプロンプトベース手法の比較を行った。
教師付き微調整では、正のクラスに対して$sim! 0.8$のF1スコアを報告します。
論文 参考訳(メタデータ) (2024-04-27T19:17:31Z) - On Sarcasm Detection with OpenAI GPT-based Models [0.0]
サルカズム(Sarcasm)は、読者やリスナーが文脈や社会的手がかりを考慮し、意図した意味を解釈することを要求する皮肉の一形態である。
機械学習の分類モデルは、その社会的複雑さと矛盾する性質のために、長い間、皮肉を検出するのに難しかった。
本稿では, GPT-3, InstructGPT, GPT-3.5, GPT-4 などの生成事前学習型トランスフォーマ(GPT)モデルを用いて, 自然言語の皮肉を検出する手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T19:00:56Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - GPTScan: Detecting Logic Vulnerabilities in Smart Contracts by Combining GPT with Program Analysis [26.081673382969615]
本稿では,GPTと静的解析を組み合わせたGPTScanを提案する。
各ロジックの脆弱性タイプをシナリオとプロパティに分割することで、GPTScanは候補の脆弱性とGPTをマッチさせる。
人間の監査官が見逃した9つの新たな脆弱性を含む70%以上のリコールで、地上の真実的ロジックの脆弱性を効果的に検出する。
論文 参考訳(メタデータ) (2023-08-07T05:48:53Z) - SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its
Departure from Current Machine Learning [5.177947445379688]
本研究は,感情分析における各種生成事前変換器(GPT)手法の徹底的な検討である。
1) 先進型GPT-3.5ターボを用いた迅速なエンジニアリング,2) 微調整型GPTモデル,3) 組込み分類への革新的アプローチの3つの戦略が採用されている。
この研究は、これらの戦略と個々のGPTモデルの間で詳細な比較洞察を与え、そのユニークな強みと潜在的な制限を明らかにしている。
論文 参考訳(メタデータ) (2023-07-16T05:33:35Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。