論文の概要: SCLA: Automated Smart Contract Summarization via LLMs and Control Flow Prompt
- arxiv url: http://arxiv.org/abs/2402.04863v6
- Date: Thu, 13 Mar 2025 07:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 19:21:06.927336
- Title: SCLA: Automated Smart Contract Summarization via LLMs and Control Flow Prompt
- Title(参考訳): SCLA: LLMと制御フロープロンプトによるスマートコントラクトの自動要約
- Authors: Xiaoqi Li, Yingjie Mao, Zexin Lu, Wenkai Li, Zongwei Li,
- Abstract要約: 制御フローグラフ(CFG)とコードの制御フローからの意味的事実を意味的にリッチなプロンプトに組み込むことで要約を強化するLCMに基づくSCLAを提案する。
実世界の4万件のスマートコントラクトのデータセットに関する総合的な実験を通じて,SCLAの有効性を検証する。
実験の結果、SCLAは総和品質を著しく改善し、SOTAベースラインを26.7%、23.2%、16.7%、14.7%とそれぞれBLEU-4、METEOR、ROUGE-L、BLEURTのスコアで上回った。
- 参考スコア(独自算出の注目度): 2.539913845592959
- License:
- Abstract: Smart contract code summarization is crucial for efficient maintenance and vulnerability mitigation. While many studies use Large Language Models (LLMs) for summarization, their performance still falls short compared to fine-tuned models like CodeT5+ and CodeBERT. Some approaches combine LLMs with data flow analysis but fail to fully capture the hierarchy and control structures of the code, leading to information loss and degraded summarization quality. We propose SCLA, an LLM-based method that enhances summarization by integrating a Control Flow Graph (CFG) and semantic facts from the code's control flow into a semantically enriched prompt. SCLA uses a control flow extraction algorithm to derive control flows from semantic nodes in the Abstract Syntax Tree (AST) and constructs the corresponding CFG. Code semantic facts refer to both explicit and implicit information within the AST that is relevant to smart contracts. This method enables LLMs to better capture the structural and contextual dependencies of the code. We validate the effectiveness of SCLA through comprehensive experiments on a dataset of 40,000 real-world smart contracts. The experiment shows that SCLA significantly improves summarization quality, outperforming the SOTA baselines with improvements of 26.7%, 23.2%, 16.7%, and 14.7% in BLEU-4, METEOR, ROUGE-L, and BLEURT scores, respectively.
- Abstract(参考訳): スマートコントラクトコードの要約は、効率的なメンテナンスと脆弱性軽減に不可欠です。
多くの研究が要約にLarge Language Models (LLMs) を使用しているが、CodeT5+やCodeBERTのような微調整モデルに比べ、パフォーマンスは依然として低い。
LLMとデータフロー分析を組み合わせるアプローチもあるが、コードの階層構造と制御構造を完全に把握できず、情報損失と要約品質が低下する。
制御フローグラフ(CFG)とコードの制御フローからの意味的事実を意味的にリッチなプロンプトに組み込むことで要約を強化するLCMに基づくSCLAを提案する。
SCLAは、制御フロー抽出アルゴリズムを用いて、抽象構文木(AST)のセマンティックノードから制御フローを導出し、対応するCFGを構築する。
コードセマンティックな事実は、スマートコントラクトに関連するAST内の明示的な情報と暗黙的な情報の両方を指します。
この方法により、LLMはコードの構造的および文脈的依存関係をよりよくキャプチャできる。
実世界の4万件のスマートコントラクトのデータセットに関する総合的な実験を通じて,SCLAの有効性を検証する。
実験の結果、SCLAは総和品質を著しく向上させ、SOTAベースラインを26.7%、23.2%、16.7%、14.7%の改善をそれぞれBLEU-4、METEOR、ROUGE-L、BLEURTのスコアで上回った。
関連論文リスト
- CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance [12.001043263281698]
既存のメソッドは、テキスト推論とコード生成の間に大きな言語モデル(LLM)を操ることができない。
我々は、LLMコード/テキスト生成を導く効果的な方法であるCodeSteerを紹介する。
GPT-4oをCodeSteerで強化すると、平均的なパフォーマンススコアが53.3から86.4に上昇する。
論文 参考訳(メタデータ) (2025-02-04T15:53:59Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Self-Explained Keywords Empower Large Language Models for Code Generation [5.236633572296712]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
Sek(textbfSelf-textbfExplained textbfKeywords)は、LLM自体による問題記述における重要な用語を抽出し、説明する。
論文 参考訳(メタデータ) (2024-10-21T12:52:03Z) - Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。
本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文 参考訳(メタデータ) (2024-07-09T05:48:42Z) - RAG-Enhanced Commit Message Generation [8.858678357308726]
コミットメッセージ生成は研究ホットスポットになっている。
手動でコミットメッセージを書くのに時間がかかります。
本稿では,Retrieval-Augmented framework for CommiTメッセージ生成のためのREACTを提案する。
論文 参考訳(メタデータ) (2024-06-08T16:24:24Z) - Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - ContraCLM: Contrastive Learning For Causal Language Model [54.828635613501376]
トークンレベルとシーケンスレベルの両方において,新しいコントラスト学習フレームワークであるContraCLMを提案する。
ContraCLMは表現の識別を強化し、エンコーダのみのモデルとのギャップを埋めることを示す。
論文 参考訳(メタデータ) (2022-10-03T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。