論文の概要: Together We Go Further: LLMs and IDE Static Analysis for Extract Method Refactoring
- arxiv url: http://arxiv.org/abs/2401.15298v2
- Date: Wed, 24 Apr 2024 19:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 21:08:18.274450
- Title: Together We Go Further: LLMs and IDE Static Analysis for Extract Method Refactoring
- Title(参考訳): LLMとIDE静的解析による抽出メソッドリファクタリング
- Authors: Dorin Pomian, Abhiram Bellur, Malinda Dilhara, Zarina Kurbatova, Egor Bogomolov, Timofey Bryksin, Danny Dig,
- Abstract要約: 単一のメソッドに複数の責任をカプセル化する長いメソッドはメンテナンスが難しい。
大規模言語モデル(LLM)は、大規模なコードコーパスで訓練されている。
LLMは非常に効果的であるが、信頼できない。最大76.3%は幻覚である。
- 参考スコア(独自算出の注目度): 9.882903340467815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long methods that encapsulate multiple responsibilities within a single method are challenging to maintain. Choosing which statements to extract into new methods has been the target of many research tools. Despite steady improvements, these tools often fail to generate refactorings that align with developers' preferences and acceptance criteria. Given that Large Language Models (LLMs) have been trained on large code corpora, if we harness their familiarity with the way developers form functions, we could suggest refactorings that developers are likely to accept. In this paper, we advance the science and practice of refactoring by synergistically combining the insights of LLMs with the power of IDEs to perform Extract Method (EM). Our formative study on 1752 EM scenarios revealed that LLMs are very effective for giving expert suggestions, yet they are unreliable: up to 76.3% of the suggestions are hallucinations. We designed a novel approach that removes hallucinations from the candidates suggested by LLMs, then further enhances and ranks suggestions based on static analysis techniques from program slicing, and finally leverages the IDE to execute refactorings correctly. We implemented this approach in an IntelliJ IDEA plugin called EM-Assist. We empirically evaluated EM-Assist on a diverse corpus that replicates 1752 actual refactorings from open-source projects. We found that EM-Assist outperforms previous state of the art tools: EM-Assist suggests the developerperformed refactoring in 53.4% of cases, improving over the recall rate of 39.4% for previous best-in-class tools. Furthermore, we conducted firehouse surveys with 16 industrial developers and suggested refactorings on their recent commits. 81.3% of them agreed with the recommendations provided by EM-Assist.
- Abstract(参考訳): 単一のメソッドに複数の責任をカプセル化する長いメソッドはメンテナンスが難しい。
新しい手法にどの文を抽出するかを選択することが、多くの研究ツールの標的となっている。
着実に改善されているにもかかわらず、これらのツールは、開発者の好みや受け入れ基準に沿ってリファクタリングを生成するのに失敗することが多い。
大きな言語モデル(LLM)が大規模なコードコーパスでトレーニングされていることを考えると、開発者が関数を作る方法に精通しているなら、開発者が受け入れそうなリファクタリングを提案するかもしれません。
本稿では,LLMの知見とIDEのパワーを相乗的に組み合わせて抽出法(EM)を実行することにより,リファクタリングの科学と実践を推し進める。
1752 EMシナリオに関する我々のフォーマティブな研究により、LSMは専門家による提案を行うのに非常に効果的であるが、信頼できないことが判明した。
LLMが提案する候補から幻覚を取り除く新しいアプローチを設計し、プログラムスライシングから静的解析技術に基づいて提案をさらに強化・ランク付けし、最終的にIDEを利用してリファクタリングを正しく実行した。
このアプローチは、EM-Assistと呼ばれるIntelliJ IDEAプラグインで実装しました。
我々は,オープンソースプロジェクトから1752個の実際のリファクタリングを複製する多種多様なコーパス上でEM-Assistを実証的に評価した。
EM-Assistは、53.4%のケースで、開発者によるリファクタリングを推奨し、以前のベストプラクティスツールの39.4%のリコール率よりも改善した。
さらに,16人の産業開発者を対象に,暖炉調査を行い,最近のコミットをリファクタリングすることを提案した。
81.3%がEM-Assistの勧告に賛成した。
関連論文リスト
- Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs [64.83462841029089]
我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。
医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
論文 参考訳(メタデータ) (2024-11-11T09:32:20Z) - An Empirical Study on the Potential of LLMs in Automated Software Refactoring [9.157968996300417]
自動ソフトウェアにおける大規模言語モデル(LLM)の可能性について検討する。
私たちは、ChatGPTが提案した176のソリューションのうち13と、Geminiが提案した137のソリューションのうち9が、ソースコードの機能を変更したり、構文エラーを導入したりすることを安全でないことに気付きました。
論文 参考訳(メタデータ) (2024-11-07T05:35:55Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Context-Enhanced LLM-Based Framework for Automatic Test Refactoring [10.847400457238423]
テストの臭いは、設計プラクティスの貧弱さとドメイン知識の不足から生じます。
我々は,Javaプロジェクトにおける自動テストのための文脈拡張型LLMベースのフレームワークUTRefactorを提案する。
6つのオープンソースのJavaプロジェクトから879のテストに対してUTRefactorを評価し、テストの匂いを2,375から265に減らし、89%の削減を実現した。
論文 参考訳(メタデータ) (2024-09-25T08:42:29Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - EM-Assist: Safe Automated ExtractMethod Refactoring with LLMs [9.474820853051702]
提案を生成し、その後検証し、拡張し、ランク付けするIntelliJ IDEAプラグインであるEM-Assistを紹介します。
オープンソースプロジェクトで実施された1,752の現実世界の評価では、EM-Assistのリコール率はトップ5の中で53.4%であり、以前のベストインクラスのツールでは39.4%だった。
論文 参考訳(メタデータ) (2024-05-31T00:32:04Z) - Behind the Intent of Extract Method Refactoring: A Systematic Literature
Review [15.194527511076725]
コードは、ソースコードの理解性と保守性を改善するために不可欠なソフトウェアエンジニアリングプラクティスとして広く認識されている。
Extract Method は、開発者がコード品質を改善するためにしばしばそれを適用するため、適用性の "Swiss Army knife" と見なされている。
近年、いくつかの研究が抽出法を推奨し、実行可能なデータ駆動の洞察の収集、分析、啓示を可能にしている。
論文 参考訳(メタデータ) (2023-12-19T21:09:54Z) - Empirical Evaluation of a Live Environment for Extract Method
Refactoring [0.0]
我々は,抽出手法を視覚的に識別し,推奨し,適用するLive Refactoring Environmentを開発した。
私たちの結果は、追加の助けなしに手作業で行うコードとは大きく異なり、改善されました。
論文 参考訳(メタデータ) (2023-07-20T16:36:02Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。