論文の概要: Back to the Basics: Rethinking Issue-Commit Linking with LLM-Assisted Retrieval
- arxiv url: http://arxiv.org/abs/2507.09199v1
- Date: Sat, 12 Jul 2025 08:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.670315
- Title: Back to the Basics: Rethinking Issue-Commit Linking with LLM-Assisted Retrieval
- Title(参考訳): 基本に立ち返る - LLM支援検索とイシューコミットリンクの再考
- Authors: Huihui Huang, Ratnadira Widyasari, Ting Zhang, Ivana Clairine Irsan, Jieke Shi, Han Wei Ang, Frank Liauw, Eng Lieh Ouh, Lwin Khin Shar, Hong Jin Kang, David Lo,
- Abstract要約: 問題と修正するコミットを結びつけるイシューコミットリンクは、ソフトウェアのメンテナンスに不可欠である。
本稿では,ベクトルデータベースを現代的な情報検索手法として活用したEasyLinkを提案する。
我々の評価では、EasyLinkは平均的なPrecision@1の75.91%を達成し、最先端の技術を4回以上改善している。
- 参考スコア(独自算出の注目度): 12.213080309713574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Issue-commit linking, which connects issues with commits that fix them, is crucial for software maintenance. Existing approaches have shown promise in automatically recovering these links. Evaluations of these techniques assess their ability to identify genuine links from plausible but false links. However, these evaluations overlook the fact that, in reality, when a repository has more commits, the presence of more plausible yet unrelated commits may interfere with the tool in differentiating the correct fix commits. To address this, we propose the Realistic Distribution Setting (RDS) and use it to construct a more realistic evaluation dataset that includes 20 open-source projects. By evaluating tools on this dataset, we observe that the performance of the state-of-the-art deep learning-based approach drops by more than half, while the traditional Information Retrieval method, VSM, outperforms it. Inspired by these observations, we propose EasyLink, which utilizes a vector database as a modern Information Retrieval technique. To address the long-standing problem of the semantic gap between issues and commits, EasyLink leverages a large language model to rerank the commits retrieved from the database. Under our evaluation, EasyLink achieves an average Precision@1 of 75.91%, improving over the state-of-the-art by over four times. Additionally, this paper provides practical guidelines for advancing research in issue-commit link recovery.
- Abstract(参考訳): 問題と修正するコミットを結びつけるイシューコミットリンクは、ソフトウェアのメンテナンスに不可欠である。
既存のアプローチは、これらのリンクを自動的にリカバリすることを約束している。
これらの手法の評価は、真偽リンクから真偽リンクを識別する能力を評価する。
しかし、これらの評価は、実際には、リポジトリがより多くのコミットを持つ場合、より確実で無関係なコミットの存在は、正しい修正コミットを区別するツールに干渉する可能性があるという事実を見落としている。
そこで我々は,Realistic Distribution Setting (RDS)を提案し,20のオープンソースプロジェクトを含むより現実的な評価データセットを構築する。
このデータセット上でツールを評価することにより、最先端のディープラーニングベースのアプローチのパフォーマンスが半分以上低下するのに対し、従来の情報検索手法であるVSMはそれを上回っていることが分かる。
本稿では,ベクトルデータベースを現代の情報検索手法として活用したEasyLinkを提案する。
問題とコミット間のセマンティックギャップの長年の問題に対処するため、EasyLinkは大規模な言語モデルを活用してデータベースから取得したコミットを再参照する。
我々の評価では、EasyLinkは平均的なPrecision@1の75.91%を達成し、最先端の技術を4回以上改善している。
さらに,本論文は,課題と課題のリンクリカバリ研究を進めるための実践的ガイドラインを提供する。
関連論文リスト
- The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,問題記述のみからのファイルパス識別と,現在のファイルコンテキストと問題記述のみによる基底真理関数の再現という,2つの診断タスクを紹介する。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
このパフォーマンスは、SWE-Benchに含まれていないリポジトリのタスクで最大53%向上し、データ汚染やメモリ化の可能性を示している。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - Long-Form Information Alignment Evaluation Beyond Atomic Facts [60.25969380388974]
明示的な幻覚を導入することなく、真理のステートメントを"モンテージ"することで、偽りの物語を構築するベンチマークであるMontageLieを紹介します。
本稿では,事実の正確性とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:46:38Z) - RelGNN: Composite Message Passing for Relational Deep Learning [56.48834369525997]
RelGNNはリレーショナルデータベースから構築されたグラフのユニークな構造特性を活用するために特別に設計された新しいGNNフレームワークである。
RelGNNは、Relbench(Fey et al., 2024)から30の多様な実世界のタスクで評価され、ほとんどのタスクで最先端のパフォーマンスを実現し、最大25%の改善を実現している。
論文 参考訳(メタデータ) (2025-02-10T18:58:40Z) - Alice Benchmarks: Connecting Real World Re-Identification with the
Synthetic [92.02220105679713]
我々は、Aliceベンチマーク、大規模データセット、ベンチマークおよび評価プロトコルを研究コミュニティに導入する。
Aliceベンチマークでは、人と車の2つのre-IDタスクが提供されている。
実際のターゲットの重要な特徴として、トレーニングセットのクラスタビリティは、実際のドメイン適応テストシナリオに近づくように手動で保証されない。
論文 参考訳(メタデータ) (2023-10-06T17:58:26Z) - EALink: An Efficient and Accurate Pre-trained Framework for Issue-Commit
Link Recovery [54.34661595290837]
本稿では,イシュー・コミット・リンク・リカバリのためのEALinkという,効率的かつ正確な事前学習フレームワークを提案する。
大規模なデータセットを構築し、EALinkのパワーを実証するための広範な実験を行う。
その結果、EALinkは様々な評価指標において、最先端の手法よりも大きなマージン(15.23%-408.65%)優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-21T14:46:43Z) - An Empirical Study on Data Leakage and Generalizability of Link
Prediction Models for Issues and Commits [7.061740334417124]
LinkFormerは既存の予測の精度を保存し、改善する。
実世界のシナリオを効果的にシミュレートするためには、研究者はデータの時間的流れを維持する必要がある。
論文 参考訳(メタデータ) (2022-11-01T10:54:26Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Automatically Generating Counterfactuals for Relation Exaction [18.740447044960796]
関係抽出(RE)は自然言語処理の基本課題である。
現在のディープニューラルモデルは高い精度を達成しているが、スプリアス相関の影響を受けやすい。
我々は、エンティティの文脈的反事実を導出するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2022-02-22T04:46:10Z) - Automated Recovery of Issue-Commit Links Leveraging Both Textual and
Non-textual Data [2.578242050187029]
自動コミット-イシューリンクに対する最先端のアプローチは、精度の低下に悩まされ、信頼性の低い結果に繋がる。
本稿では,2つの情報チャネルを活用することで,このような制限を克服するハイブリッドリンクを提案する。
我々は、競合するアプローチであるFRLinkとDeepLinkに対して、12のプロジェクトのデータセットでHybrid-Linkerを評価した。
論文 参考訳(メタデータ) (2021-07-05T09:38:44Z) - Automated Mapping of Vulnerability Advisories onto their Fix Commits in
Open Source Repositories [7.629717457706326]
実践経験と機械学習(ML)を組み合わせたアプローチを提案する。
アドバイザリから脆弱性に関する鍵情報を含むアドバイザリレコードを抽出する。
影響を受けるプロジェクトのソースコードリポジトリから、候補となる修正コミットのサブセットを取得する。
論文 参考訳(メタデータ) (2021-03-24T17:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。