Fugu-MT 論文翻訳(概要): Combining Fine-Tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications

論文の概要: Combining Fine-Tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications

arxiv url: http://arxiv.org/abs/2403.16073v2
Date: Sat, 17 Aug 2024 07:33:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 03:17:53.313617
Title: Combining Fine-Tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications
Title（参考訳）: 直感的スマートコントラクト監査のためのファインチューニングとLCMベースエージェントの併用
Authors: Wei Ma, Daoyuan Wu, Yuqiang Sun, Tianwen Wang, Shangqing Liu, Jian Zhang, Yue Xue, Yang Liu,
Abstract要約: iAuditは、正当化を伴う直感的なスマートコントラクト監査のためのフレームワークである。 263の実際のスマートコントラクトの脆弱性のデータセットでは、iAuditはF1スコアが91.21%、精度が91.11%に達する。
参考スコア（独自算出の注目度）: 18.138452572457552
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Smart contracts are decentralized applications built atop blockchains like Ethereum. Recent research has shown that large language models (LLMs) have potential in auditing smart contracts, but the state-of-the-art indicates that even GPT-4 can achieve only 30% precision (when both decision and justification are correct). This is likely because off-the-shelf LLMs were primarily pre-trained on a general text/code corpus and not fine-tuned on the specific domain of Solidity smart contract auditing. In this paper, we propose iAudit, a general framework that combines fine-tuning and LLM-based agents for intuitive smart contract auditing with justifications. Specifically, iAudit is inspired by the observation that expert human auditors first perceive what could be wrong and then perform a detailed analysis of the code to identify the cause. As such, iAudit employs a two-stage fine-tuning approach: it first tunes a Detector model to make decisions and then tunes a Reasoner model to generate causes of vulnerabilities. However, fine-tuning alone faces challenges in accurately identifying the optimal cause of a vulnerability. Therefore, we introduce two LLM-based agents, the Ranker and Critic, to iteratively select and debate the most suitable cause of vulnerability based on the output of the fine-tuned Reasoner model. To evaluate iAudit, we collected a balanced dataset with 1,734 positive and 1,810 negative samples to fine-tune iAudit. We then compared it with traditional fine-tuned models (CodeBERT, GraphCodeBERT, CodeT5, and UnixCoder) as well as prompt learning-based LLMs (GPT4, GPT-3.5, and CodeLlama-13b/34b). On a dataset of 263 real smart contract vulnerabilities, iAudit achieves an F1 score of 91.21% and an accuracy of 91.11%. The causes generated by iAudit achieved a consistency of about 38% compared to the ground truth causes.
Abstract（参考訳）: スマートコントラクトはEthereumのようなブロックチェーン上に構築された分散アプリケーションである。近年の研究では、大きな言語モデル(LLM)がスマートコントラクトを監査する可能性があることが示されているが、現状では、GPT-4でさえ30%の精度しか達成できない(決定と正当化が正しければ)。これは、既製のLLMが主に一般的なテキスト/コードコーパスで事前訓練されており、Solidityスマートコントラクト監査の特定のドメインで微調整されていないためだろう。本稿では,直感的なスマートコントラクト監査と正当化のための微調整エージェントとLLMベースのエージェントを組み合わせた汎用フレームワークiAuditを提案する。特にiAuditは、専門家の人間監査官がまず何が間違っているかを理解し、その原因を特定するためのコードの詳細な分析を行うという観察にインスパイアされている。 iAuditは2段階の微調整アプローチを採用しており、まずはディクタモデルをチューニングし、次にReasonerモデルをチューニングして脆弱性の原因を生成する。しかし、微調整だけでは、脆弱性の最適な原因を正確に特定することの難しさに直面する。そこで我々はLLMをベースとした2つのエージェントであるRancherとCricを導入し、微調整されたReasonerモデルの出力に基づいて、脆弱性の最も適切な原因を反復的に選択し、議論する。 iAuditを評価するために,iAuditに1,734の正,負のサンプル1,810のバランスデータセットを収集した。次に、従来の微調整モデル(CodeBERT、GraphCodeBERT、CodeT5、UnixCoder)と比較し、学習ベースのLCM(GPT4、GPT-3.5、CodeLlama-13b/34b)と比較した。 263の実際のスマートコントラクトの脆弱性のデータセットでは、iAuditはF1スコアが91.21%、精度が91.11%に達する。 iAuditが生成した原因は、根本原因と比較して約38%の整合性を達成した。

関連論文リスト

Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
Smart-LLaMA-DPO: Reinforced Large Language Model for Explainable Smart Contract Vulnerability Detection [15.694744168599055]
既存の脆弱性検出方法は2つの大きな問題に直面している。嗜好学習には包括的カバレッジと高品質な説明が欠如している。大規模言語モデル(LLM)は、スマートコントラクトのセキュリティにおいて、特定の概念を正確に解釈するのに苦労することが多い。
論文参考訳（メタデータ） (2025-06-23T02:24:07Z)
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。 1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文参考訳（メタデータ） (2025-05-28T06:24:45Z)
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文参考訳（メタデータ） (2025-04-07T03:57:41Z)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文参考訳（メタデータ） (2025-04-07T02:42:07Z)
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組むまた,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2025-02-11T08:48:48Z)
Leveraging Large Language Models and Machine Learning for Smart Contract Vulnerability Detection [0.0]
我々は、モデル性能を比較するために、機械学習アルゴリズムを訓練、テストし、タイプに応じてスマートコントラクトコードを分類する。我々の研究は、機械学習と大規模言語モデルを組み合わせて、さまざまなスマートコントラクトの脆弱性を検出するリッチで解釈可能なフレームワークを提供します。
論文参考訳（メタデータ） (2025-01-04T08:32:53Z)
Smart-LLaMA: Two-Stage Post-Training of Large Language Models for Smart Contract Vulnerability Detection and Explanation [21.39496709865097]
既存のスマートコントラクトの脆弱性検出方法は3つの大きな問題に直面している。データセットの十分な品質、詳細な説明と正確な脆弱性位置の欠如。 LLaMA言語モデルに基づく高度な検出手法であるSmart-LLaMAを提案する。
論文参考訳（メタデータ） (2024-11-09T15:49:42Z)
Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文参考訳（メタデータ） (2024-10-17T17:51:40Z)
SC-Bench: A Large-Scale Dataset for Smart Contract Auditing [5.787866021952808]
自動スマートコントラクト監査研究のための最初のデータセットであるSC-Benchを紹介する。 SC-Benchは5,377の現実世界のスマートコントラクトと15,975の標準に違反している。 GPT-4 を用いて SC-Bench の評価を行った。以上の結果から,GPT-4は0.9%の違反しか検出できず,22.9%の違反を検出できた。
論文参考訳（メタデータ） (2024-10-08T16:23:50Z)
Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。我々は、MATHで28%$rightarrow$44.6%、MMLU抽象代数学で37.9%$rightarrow$53.5%の改善を観察する。
論文参考訳（メタデータ） (2024-08-27T17:57:45Z)
A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文参考訳（メタデータ） (2024-06-16T19:22:53Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文参考訳（メタデータ） (2024-03-13T11:29:13Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)
A Bytecode-based Approach for Smart Contract Classification [10.483992071557195]
ブロックチェーンプラットフォームにデプロイされるスマートコントラクトの数は指数関数的に増えているため、ユーザは手動のスクリーニングによって望ましいサービスを見つけることが難しくなっている。スマートコントラクト分類に関する最近の研究は、契約ソースコードに基づく自然言語処理(NLP)ソリューションに焦点を当てている。本稿では,これらの問題を解決するために,ソースコードの代わりにコントラクトバイトコードの特徴に基づく分類モデルを提案する。
論文参考訳（メタデータ） (2021-05-31T03:00:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。