論文の概要: Characterizing Multi-Hunk Patches: Divergence, Proximity, and LLM Repair Challenges
- arxiv url: http://arxiv.org/abs/2506.04418v1
- Date: Wed, 04 Jun 2025 19:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.407374
- Title: Characterizing Multi-Hunk Patches: Divergence, Proximity, and LLM Repair Challenges
- Title(参考訳): マルチハンクパッチの特徴:多様性、近さ、LLM修復課題
- Authors: Noor Nashid, Daniel Ding, Keheliya Gallaba, Ahmed E. Hassan, Ali Mesbah,
- Abstract要約: コードの不整合領域にまたがる修正を行うマルチハンクバグは、実際には一般的だが、自動修正では不足している。
本研究では,実世界の372の欠陥から得られたマルチハンクパッチのデータセットであるHUNK4Jを特徴付ける。
そこで我々は,Hunk divergenceを提案する。Hunkの個数を取り入れつつ,語彙的,構造的,ファイルレベルでの違いを捉えることで,パッチ内の編集の変動を定量化するメトリクスである。
- 参考スコア(独自算出の注目度): 10.034852887961563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-hunk bugs, where fixes span disjoint regions of code, are common in practice, yet remain underrepresented in automated repair. Existing techniques and benchmarks pre-dominantly target single-hunk scenarios, overlooking the added complexity of coordinating semantically related changes across the codebase. In this work, we characterize HUNK4J, a dataset of multi-hunk patches derived from 372 real-world defects. We propose hunk divergence, a metric that quantifies the variation among edits in a patch by capturing lexical, structural, and file-level differences, while incorporating the number of hunks involved. We further define spatial proximity, a classification that models how hunks are spatially distributed across the program hierarchy. Our empirical study spanning six LLMs reveals that model success rates decline with increased divergence and spatial dispersion. Notably, when using the LLM alone, no model succeeds in the most dispersed Fragment class. These findings highlight a critical gap in LLM capabilities and motivate divergence-aware repair strategies.
- Abstract(参考訳): コードの不整合領域にまたがる修正を行うマルチハンクバグは、実際には一般的だが、自動修正では不足している。
既存のテクニックとベンチマークは、コードベース全体にわたって意味論的に関連する変更をコーディネートする、追加の複雑さを見越して、シングルハンクシナリオを前もってターゲットとしています。
本研究では,実世界の372の欠陥から得られたマルチハンクパッチのデータセットであるHUNK4Jを特徴付ける。
そこで我々は,Hunk divergenceを提案する。Hunkの個数を取り入れつつ,語彙的,構造的,ファイルレベルでの違いを捉えることで,パッチ内の編集の変動を定量化するメトリクスである。
さらに、プログラム階層にまたがるハンクの空間分布をモデル化する分類である空間近接を定義する。
実験により, モデル成功率は, ばらつきと空間分散の増大とともに減少することが明らかとなった。
特に LLM を単独で使用する場合、最も分散した Fragment クラスでモデルが成功することはない。
これらの知見は, LLM能力の重大なギャップを浮き彫りにし, 分岐対応修復戦略の動機付けを図っている。
関連論文リスト
- Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [5.191767648600372]
本研究では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。
以上の結果から,コミットメッセージとコード差分を組み合わせることでモデル性能が著しく向上し,F1スコアの0.88が達成された。
これらの発見は、主にノイズフリーなバグデータセットが欠如していることから、メソッドレベルのバグ予測がオープンな研究課題であり続けているため、研究コミュニティにとって有益である。
論文 参考訳(メタデータ) (2025-05-13T06:26:13Z) - Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning [51.177789437682954]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、モデルが学習したクラスの知識を維持しつつ、新しいクラスを逐次学習できるようにすることを目的とする。
柔軟性と安定性のバランスをとることは、特にタスクIDが不明な場合には、依然として大きな課題である。
本研究では,平均シフト補償と共分散校正を組み合わせたセマンティックドリフト校正法を提案する。
論文 参考訳(メタデータ) (2025-02-11T13:57:30Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Invariance-based Multi-Clustering of Latent Space Embeddings for
Equivariant Learning [12.770012299379099]
より深い群不変学習を強制することにより、リー群多様体における等角写像を非共役化する手法を提案する。
実験の結果,このモデルでは,不変表現と同変表現を効果的に切り離すことができ,学習速度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-25T03:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。