論文の概要: Natural Language Summarization Enables Multi-Repository Bug Localization by LLMs in Microservice Architectures
- arxiv url: http://arxiv.org/abs/2512.05908v1
- Date: Fri, 05 Dec 2025 17:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.118106
- Title: Natural Language Summarization Enables Multi-Repository Bug Localization by LLMs in Microservice Architectures
- Title(参考訳): マイクロサービスアーキテクチャにおけるLLMによるマルチリポジトリバグローカライズを可能にする自然言語要約
- Authors: Amirkia Rafiei Oskooei, S. Selcan Yukcu, Mehmet Cevheri Bozoglan, Mehmet S. Aktas,
- Abstract要約: この研究は、エンジニアリングされた自然言語表現が、スケーラブルなバグローカライゼーションのために、生のソースコードよりも効果的であることを示している。
DNextは46のレポジトリと1.1M行のコードを持つ産業システムであり,提案手法はPass@10の0.82とMRRの0.50を達成している。
- 参考スコア(独自算出の注目度): 0.23332469289621782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bug localization in multi-repository microservice architectures is challenging due to the semantic gap between natural language bug reports and code, LLM context limitations, and the need to first identify the correct repository. We propose reframing this as a natural language reasoning task by transforming codebases into hierarchical NL summaries and performing NL-to-NL search instead of cross-modal retrieval. Our approach builds context-aware summaries at file, directory, and repository levels, then uses a two-phase search: first routing bug reports to relevant repositories, then performing top-down localization within those repositories. Evaluated on DNext, an industrial system with 46 repositories and 1.1M lines of code, our method achieves Pass@10 of 0.82 and MRR of 0.50, significantly outperforming retrieval baselines and agentic RAG systems like GitHub Copilot and Cursor. This work demonstrates that engineered natural language representations can be more effective than raw source code for scalable bug localization, providing an interpretable repository -> directory -> file search path, which is vital for building trust in enterprise AI tools by providing essential transparency.
- Abstract(参考訳): マルチリポジトリマイクロサービスアーキテクチャのバグローカライズは、自然言語のバグレポートとコード間のセマンティックなギャップ、LLMコンテキストの制限、適切なリポジトリを最初に識別する必要があるため、難しい。
コードベースを階層的なNL要約に変換し、モーダル検索の代わりにNL-to-NL探索を行うことにより、これを自然言語推論タスクとして再フレーミングすることを提案する。
当社のアプローチでは、ファイル、ディレクトリ、リポジトリレベルでコンテキスト対応の要約を構築し、次に2フェーズ検索を使用します。
46のレポジトリと1.1M行のコードを持つ産業システムであるDNextに基づいて評価し、Pass@10の0.82とMRRの0.50を達成し、検索ベースラインとGitHub CopilotやCursorのようなエージェントRAGシステムよりも大幅に向上した。
この研究は、設計された自然言語表現が、スケーラブルなバグローカライゼーションのために生のソースコードよりも効果的であることを示し、解釈可能なリポジトリ ->ディレクトリ -> ファイル検索パスを提供する。
関連論文リスト
- SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - Enhancing repository-level software repair via repository-aware knowledge graphs [13.747293341707563]
リポジトリレベルのソフトウェア修復は、問題記述とコードパッチの間のセマンティックギャップを埋める際の課題に直面します。
既存のアプローチは、大きな言語モデル(LLM)に依存しており、意味的曖昧さ、構造的文脈の限られた理解、推論能力の不足によって妨げられている。
本稿では,リポジトリアーティファクト(課題とプル要求)とエンティティ(ファイル,クラス,関数)を正確にリンクする新しいリポジトリ対応知識グラフ(KG)を提案する。
KGをマイニングした経路を利用する経路誘導補修機構により,説明とともに文脈情報を拡張することができる。
論文 参考訳(メタデータ) (2025-03-27T17:21:47Z) - ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - Scalable, Validated Code Translation of Entire Projects using Large Language Models [13.059046327936393]
大規模言語モデル(LLM)は、慣用的なコードを生成する能力のため、コード翻訳において有望であることを示す。
既存の作品では、100行以上のコードに対する翻訳の成功率が低下している。
私たちは、コードを独立した翻訳が可能な小さなコードフラグメントに分割する、トランスフォーメーションのためのモジュラーアプローチを開発しています。
我々は,最大6,600行のコードと369の関数に対して,信頼性の高いRustを一貫して生成できることを示し,平均73%の関数をI/O同値で検証した。
論文 参考訳(メタデータ) (2024-12-11T02:31:46Z) - RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust [50.65321080814249]
RustRepoTransは、インクリメンタル翻訳をターゲットにした、最初のリポジトリレベルのコンテキストコード変換ベンチマークである。
複雑な翻訳シナリオの制約を評価するために, 7つの代表的なLLMを評価し, それらの誤差を分析した。
論文 参考訳(メタデータ) (2024-11-21T10:00:52Z) - Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文 参考訳(メタデータ) (2024-04-22T03:52:54Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。