論文の概要: What Were You Thinking? An LLM-Driven Large-Scale Study of Refactoring Motivations in Open-Source Projects
- arxiv url: http://arxiv.org/abs/2509.07763v1
- Date: Tue, 09 Sep 2025 13:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.344378
- Title: What Were You Thinking? An LLM-Driven Large-Scale Study of Refactoring Motivations in Open-Source Projects
- Title(参考訳): みなさんはどう思うだろうか? オープンソースプロジェクトにおけるLLM駆動のリファクタリングモチベーションに関する大規模研究
- Authors: Mikel Robredo, Matteo Esposito, Fabio Palomba, Rafael Peñaloza, Valentina Lenarduzzi,
- Abstract要約: 開発者アクティビティを分析し、LLM(Large Language Models)を活用して、基盤となるモチベーションを特定します。
LLMは80%の症例で人間の判断と一致したが、文学に基づくモチベーションはわずか47%であった。
LLMは表面レベルのモチベーションを効果的に捉えるが、アーキテクチャ上の理由付けに苦慮する。
- 参考スコア(独自算出の注目度): 9.505102962292144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context. Code refactoring improves software quality without changing external behavior. Despite its advantages, its benefits are hindered by the considerable cost of time, resources, and continuous effort it demands. Aim. Understanding why developers refactor, and which metrics capture these motivations, may support wider and more effective use of refactoring in practice. Method. We performed a large-scale empirical study to analyze developers refactoring activity, leveraging Large Language Models (LLMs) to identify underlying motivations from version control data, comparing our findings with previous motivations reported in the literature. Results. LLMs matched human judgment in 80% of cases, but aligned with literature-based motivations in only 47%. They enriched 22% of motivations with more detailed rationale, often highlighting readability, clarity, and structural improvements. Most motivations were pragmatic, focused on simplification and maintainability. While metrics related to developer experience and code readability ranked highest, their correlation with motivation categories was weak. Conclusions. We conclude that LLMs effectively capture surface-level motivations but struggle with architectural reasoning. Their value lies in providing localized explanations, which, when combined with software metrics, can form hybrid approaches. Such integration offers a promising path toward prioritizing refactoring more systematically and balancing short-term improvements with long-term architectural goals.
- Abstract(参考訳): コンテキスト。
コードリファクタリングは、外部の振る舞いを変えることなく、ソフトウェア品質を改善する。
その利点にもかかわらず、その利点は、要求される時間、リソース、継続的な努力のかなりのコストによって妨げられます。
エイム。
なぜ開発者がリファクタリングし、どのメトリクスがモチベーションを捉えているのかを理解することは、実践においてより広く、より効果的なリファクタリングの使用をサポートするかもしれない。
方法。
筆者らは,大規模言語モデル(LLM)を用いて開発者リファクタリング活動の分析を行い,バージョン管理データから基礎となるモチベーションを同定し,文献で報告されたモチベーションと比較した。
結果。
LLMは80%の症例で人間の判断と一致したが、文学に基づくモチベーションはわずか47%であった。
彼らはモチベーションの22%をより詳細な根拠で豊かにし、可読性、明確性、構造的改善を強調した。
ほとんどのモチベーションは実用的で、単純化と保守性に重点を置いていた。
開発者エクスペリエンスとコード可読性に関連する指標が最も高いが、モチベーションカテゴリとの相関は弱かった。
結論。
LLMは表面レベルのモチベーションを効果的に捉えるが、アーキテクチャ上の理由付けに苦慮する。
その価値は、ソフトウェアメトリクスと組み合わせることで、ハイブリッドなアプローチを形成することのできる、局所的な説明を提供することにあります。
このような統合は、リファクタリングをより体系的に優先順位付けし、短期的な改善と長期的なアーキテクチャ目標のバランスをとるための、有望な道を提供する。
関連論文リスト
- Refactoring with LLMs: Bridging Human Expertise and Machine Understanding [5.2993089947181735]
我々はMartin Fowler氏のガイドラインに基づいて、61のよく知られた変換型の命令戦略を設計する。
これらの戦略は、GitHubプロジェクトのベンチマーク例と実世界のコードスニペットに基づいて評価する。
記述的命令は人間にとってより解釈しやすいが,本研究の結果から,ルールに基づく命令が特定のシナリオにおいてより優れたパフォーマンスをもたらすことがしばしば示されている。
論文 参考訳(メタデータ) (2025-10-04T19:40:42Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - MeRF: Motivation-enhanced Reinforcement Finetuning for Large Reasoning Models [95.6332110724999]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模言語モデル(LLM)の強化学習を強化する直感的かつ効果的な手法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識して応答を改善するためのコンテキスト内モチベーションとして機能する。
Knights and Knaves(K&K)論理パズル推論ベンチマークに関する実証的な評価は、texttMeRFがベースラインよりもかなりの性能向上を達成することを示した。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - THiNK: Can Large Language Models Think-aloud? [0.0]
ブルーム分類に基づく多エージェントフィードバック駆動評価フレームワークであるTHiNKを提案する。
我々は、THiNKを7つの最先端言語モデルに適用し、その出力の認知分析を行う。
結果は、モデルが確実に下位のカテゴリをうまく実行するが、現実的な文脈における知識の適用に苦慮していることを示している。
論文 参考訳(メタデータ) (2025-05-26T16:27:02Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - In Search of Metrics to Guide Developer-Based Refactoring Recommendations [13.063733696956678]
モチベーションは、外部の振る舞いを損なうことなく、ソースコードの品質を改善するための確立されたアプローチである。
本研究では,開発者の運用意欲を調査する指標に関する実証的研究を提案する。
実行すべき開発者のモチベーションを把握する上で、製品とプロセスのメトリクスの価値を定量化します。
論文 参考訳(メタデータ) (2024-07-25T16:32:35Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - How We Refactor and How We Document it? On the Use of Supervised Machine
Learning Algorithms to Classify Refactoring Documentation [25.626914797750487]
リファクタリングは、外部の振る舞いを変えることなく、システムの設計を改善する技術である。
この研究はコミットを、従来のBugFixやFunctionalのカテゴリとともに、内部QA、外部QA、Code Smell Resolutionの3つのカテゴリに分類する。
分類結果をよりよく理解するために、私たちはコミットメッセージを分析して、開発者が定期的に臭いを説明するために使用するパターンを抽出しました。
論文 参考訳(メタデータ) (2020-10-26T20:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。