論文の概要: Leveraging LLMs, IDEs, and Semantic Embeddings for Automated Move Method Refactoring
- arxiv url: http://arxiv.org/abs/2503.20934v1
- Date: Wed, 26 Mar 2025 19:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:02.373687
- Title: Leveraging LLMs, IDEs, and Semantic Embeddings for Automated Move Method Refactoring
- Title(参考訳): 自動モブメソッドリファクタリングのためのLLM、IDE、セマンティックな埋め込みの活用
- Authors: Fraol Batole, Abhiram Bellur, Malinda Dilhara, Mohammed Raihan Ullah, Yaroslav Zharov, Timofey Bryksin, Kai Ishikawa, Haifeng Chen, Masaharu Morimoto, Shota Motoura, Takeo Hosomi, Tien N. Nguyen, Hridesh Rajan, Nikolaos Tsantalis, Danny Dig,
- Abstract要約: 大きな言語モデルには専門家による提案があるが、信頼できない:最大80%の提案は幻覚である。
我々は,MOVEMETHODの推奨から実行まで,エンドツーエンドライフサイクル全体を自動化した最初のLLM完全パワーアシスタントを紹介する。
- 参考スコア(独自算出の注目度): 34.91824310303815
- License:
- Abstract: MOVEMETHOD is a hallmark refactoring. Despite a plethora of research tools that recommend which methods to move and where, these recommendations do not align with how expert developers perform MOVEMETHOD. Given the extensive training of Large Language Models and their reliance upon naturalness of code, they should expertly recommend which methods are misplaced in a given class and which classes are better hosts. Our formative study of 2016 LLM recommendations revealed that LLMs give expert suggestions, yet they are unreliable: up to 80% of the suggestions are hallucinations. We introduce the first LLM fully powered assistant for MOVEMETHOD refactoring that automates its whole end-to-end lifecycle, from recommendation to execution. We designed novel solutions that automatically filter LLM hallucinations using static analysis from IDEs and a novel workflow that requires LLMs to be self-consistent, critique, and rank refactoring suggestions. As MOVEMETHOD refactoring requires global, projectlevel reasoning, we solved the limited context size of LLMs by employing refactoring-aware retrieval augment generation (RAG). Our approach, MM-assist, synergistically combines the strengths of the LLM, IDE, static analysis, and semantic relevance. In our thorough, multi-methodology empirical evaluation, we compare MM-assist with the previous state-of-the-art approaches. MM-assist significantly outperforms them: (i) on a benchmark widely used by other researchers, our Recall@1 and Recall@3 show a 1.7x improvement; (ii) on a corpus of 210 recent refactorings from Open-source software, our Recall rates improve by at least 2.4x. Lastly, we conducted a user study with 30 experienced participants who used MM-assist to refactor their own code for one week. They rated 82.8% of MM-assist recommendations positively. This shows that MM-assist is both effective and useful.
- Abstract(参考訳): MOVEMETHODは目覚ましいリファクタリングです。
どのメソッドをどこに移動すべきかを推奨する多くの研究ツールにもかかわらず、これらの推奨事項は専門家の開発者がMOVEMETHODを実行する方法と一致しない。
大規模言語モデルの広範なトレーニングとコードの自然性への依存を考えると、どのメソッドが特定のクラスに置き忘れられているのか、どのクラスがより良いホストであるかを専門的に推奨する必要がある。
2016年のLSMレコメンデーションのフォーマティブな研究により、LSMは専門家による提案を行うが、信頼できないことが判明した。
我々はMOVEMETHODリファクタリングのための最初のLLM完全パワーアシスタントを導入し、推奨から実行までのエンドツーエンドライフサイクル全体を自動化した。
我々は,IDEからの静的解析を用いてLLM幻覚を自動的にフィルタリングする新しいソリューションを設計し,LLMに自己整合性,批判性,ランクリファクタリングを提案する新しいワークフローを構築した。
MOVEMETHODリファクタリングはグローバルでプロジェクトレベルの推論を必要とするため、リファクタリング対応検索拡張生成(RAG)を用いることで、LLMの限られたコンテキストサイズを解決した。
我々のアプローチであるMM-assistは、LLM、IDE、静的解析、意味的関連性の強さを相乗的に組み合わせている。
我々は, MM-assistを従来の最先端手法と比較し, 総合的, マルチメソドロジー実証評価を行った。
MM-assistはそれらを著しく上回っている。
(i)他の研究者が広く使用しているベンチマークでは、Recall@1とRecall@3が1.7倍の改善を示している。
(ii) オープンソースソフトウェアの最近の210のリファクタリングのコーパスでは、リコール率を少なくとも2.4倍改善しています。
最後に,MM-assistを用いてコードを1週間リファクタリングした経験者30名を対象に,ユーザスタディを行った。
MM-assistレコメンデーションの82.8%を肯定的に評価した。
これはMM-assistが有効かつ有用であることを示している。
関連論文リスト
- Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering [18.766132076075365]
大規模言語モデル(LLM)は、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに取り組むためにデプロイされている。
Pass@kメトリックは、広範囲なユニットテストと設定された環境を必要とし、LLM生成したテキストの評価には適していない。
BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
論文 参考訳(メタデータ) (2025-02-10T06:49:29Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents [27.807695570974644]
LLMエージェントに与えられたプロンプトのステップバイステップ命令を最適化するために、段階的な降下を行う新しい方法、textscRePromptを提案する。
中間的なフィードバックを活用することで、 textscRePromptは最終的なソリューションチェッカーを必要とせずにプロンプトを最適化できる。
論文 参考訳(メタデータ) (2024-06-17T01:23:11Z) - EM-Assist: Safe Automated ExtractMethod Refactoring with LLMs [9.474820853051702]
提案を生成し、その後検証し、拡張し、ランク付けするIntelliJ IDEAプラグインであるEM-Assistを紹介します。
オープンソースプロジェクトで実施された1,752の現実世界の評価では、EM-Assistのリコール率はトップ5の中で53.4%であり、以前のベストインクラスのツールでは39.4%だった。
論文 参考訳(メタデータ) (2024-05-31T00:32:04Z) - Together We Go Further: LLMs and IDE Static Analysis for Extract Method Refactoring [9.882903340467815]
単一のメソッドに複数の責任をカプセル化する長いメソッドはメンテナンスが難しい。
大規模言語モデル(LLM)は、大規模なコードコーパスで訓練されている。
LLMは非常に効果的であるが、信頼できない。最大76.3%は幻覚である。
論文 参考訳(メタデータ) (2024-01-27T05:01:03Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。