論文の概要: Think Harder and Don't Overlook Your Options: Revisiting Issue-Commit Linking with LLM-Assisted Retrieval
- arxiv url: http://arxiv.org/abs/2605.00447v1
- Date: Fri, 01 May 2026 06:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.876463
- Title: Think Harder and Don't Overlook Your Options: Revisiting Issue-Commit Linking with LLM-Assisted Retrieval
- Title(参考訳): 選択肢を見落とさないように - LLM支援検索とイシューコミットリンクを再考
- Authors: Cole Morgan, Muhammad Asaduzzaman, Shaiful Chowdhurry, Shaowei Wang,
- Abstract要約: 本稿では,BTLink,EasyLink,FRLink,RCLinker,Hybrid-Linkerなど,既定のイシューコミットリンクリカバリ手法について検討する。
その結果, 密集検索手法は, 関連するコミットの特定において, スパース検索手法よりも優れていることがわかった。
従来の機械学習ベースのリグレード技術は、LLMベースのアプローチよりも高いパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 7.078973963849209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linking issue reports to the commits that resolve them is essential for software traceability, maintenance, and evolution. Accurate issue-commit links help developers to understand system changes and the rationale behind them. While numerous automated techniques have been proposed, ranging from heuristic and feature-based approaches to modern deep learning and large language model approaches, our goal is to evaluate these techniques to determine which are most effective and efficient. In this study, we revisit several established issue-commit link recovery techniques, including BTLink, EasyLink, FRLink, RCLinker, and Hybrid-Linker, and assess their performance for reranking issue-commit links. We first evaluate different retrieval methods (BM25, BM25L, SBERT-Semantic Search, ANNOY, LSH, HNSW) for their ability to efficiently retrieve relevant commits, reducing the candidate set that must be considered by more computationally expensive models. Using the best retrieval methods, we then investigate the reranking effectiveness of different machine learning-based techniques, including traditional machine learning models, a cross-encoder, and large language models (ChatGPT, Qwen, Gemma, Llama), to refine the reranking of candidate commits and improve precision. Finally, we compare the effectiveness of these techniques. Our results show that dense retrieval methods outperform sparse retrieval approaches in identifying relevant commits and that combining dense and sparse retrieval can improve recall. Additionally, we find that traditional machine learning-based reranking techniques achieve higher performance than LLM-based approaches. Our results highlight that retrieval-based pipelines remain a practical and effective solution for large-scale issue-commit linking, and that simpler models should be carefully considered before adopting computationally expensive LLM-based approaches.
- Abstract(参考訳): 問題の報告をそれらを解決するコミットにリンクすることは、ソフトウェアのトレーサビリティ、メンテナンス、進化に不可欠である。
正確なイシューコミットリンクは、開発者がシステムの変更とそれらの背後にある理論的根拠を理解するのに役立つ。
ヒューリスティックな特徴に基づくアプローチから、現代のディープラーニングや大規模言語モデルアプローチまで、数多くの自動化技術が提案されているが、その目標は、どの手法が最も効果的で効率的なかを判断することである。
本研究では,BTLink,EasyLink,FRLinker,RCLinker,Hybrid-Linkerなどの既存の課題コミットリンク回復手法を再検討し,課題コミットリンクの再評価を行う。
まず,より計算コストの高いモデルで考慮すべき候補セットを減らし,複数の検索手法(BM25,BM25L,SBERT-Semantic Search,ANNOY,LSH,HNSW)を効率よく検索する能力について検討した。
最適な検索手法を用いて,従来の機械学習モデル,クロスエンコーダ,大規模言語モデル(ChatGPT,Qwen,Gemma,Llama)など,さまざまな機械学習ベースの手法の順位変更の有効性を検証し,候補コミットの再ランク付けを洗練し,精度の向上を図る。
最後に,これらの手法の有効性を比較した。
以上の結果から, 高密度検索手法は, 関連するコミットの特定においてスパース検索手法よりも優れており, 高密度検索法とスパース検索法を組み合わせることでリコールを改善できることが示唆された。
さらに,従来の機械学習に基づくリグレード技術は,LCMベースの手法よりも高い性能を実現することがわかった。
この結果から,検索ベースパイプラインは大規模課題コミットリンクの実用的で効果的なソリューションであり,計算コストの高いLCMアプローチを採用する前に,より単純なモデルを慎重に検討すべきであることが示唆された。
関連論文リスト
- Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity [30.346398341996476]
本稿では,クエリの複雑性に基づいて最適な検索戦略を動的に選択する強化学習ベースのフレームワークを提案する。
提案手法は,検索コストを低減しつつ,複数のシングルホップおよびマルチホップデータセット上でのアート結果の新たな状態を実現する。
論文 参考訳(メタデータ) (2024-12-02T14:55:02Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Vietnamese Legal Information Retrieval in Question-Answering System [0.0]
Retrieval Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上に大きく貢献している。
しかしながら、RAGはいくつかの課題のためにベトナム語に適用されると、しばしば不足する。
本報告では,これらの課題に対処するための3つの主な修正点を紹介する。
論文 参考訳(メタデータ) (2024-09-05T02:34:05Z) - Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。