論文の概要: Multi-CoLoR: Context-Aware Localization and Reasoning across Multi-Language Codebases
- arxiv url: http://arxiv.org/abs/2602.19407v1
- Date: Mon, 23 Feb 2026 00:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.628738
- Title: Multi-CoLoR: Context-Aware Localization and Reasoning across Multi-Language Codebases
- Title(参考訳): Multi-CoLoR:マルチ言語コードベースにおけるコンテキスト認識のローカライゼーションと推論
- Authors: Indira Vats, Sanjukta De, Subhayan Roy, Saurabh Bodhe, Lejin Varghese, Max Kiehn, Yonas Bedasso, Marsha Chechik,
- Abstract要約: マルチ言語間におけるコンテキスト認識のローカライゼーションと推論のためのフレームワークであるMulti-CoLoRを提案する。
複雑なソフトウェアエコシステムを横断するために、組織的知識検索とグラフベースの推論を統合する。
- 参考スコア(独自算出の注目度): 1.4216413758677147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models demonstrate strong capabilities in code generation but struggle to navigate complex, multi-language repositories to locate relevant code. Effective code localization requires understanding both organizational context (e.g., historical issue-fix patterns) and structural relationships within heterogeneous codebases. Existing methods either (i) focus narrowly on single-language benchmarks, (ii) retrieve code across languages via shallow textual similarity, or (iii) assume no prior context. We present Multi-CoLoR, a framework for Context-aware Localization and Reasoning across Multi-Language codebases, which integrates organizational knowledge retrieval with graph-based reasoning to traverse complex software ecosystems. Multi-CoLoR operates in two stages: (i) a similar issue context (SIC) module retrieves semantically and organizationally related historical issues to prune the search space, and (ii) a code graph traversal agent (an extended version of LocAgent, a state-of-the-art localization framework) performs structural reasoning within C++ and QML codebases. Evaluations on a real-world enterprise dataset show that incorporating SIC reduces the search space and improves localization accuracy, and graph-based reasoning generalizes effectively beyond Python-only repositories. Combined, Multi-CoLoR improves Acc@5 over both lexical and graph-based baselines while reducing tool calls on an AMD codebase.
- Abstract(参考訳): 大規模な言語モデルは、コード生成において強力な能力を示しているが、関連するコードを見つけるために複雑な多言語リポジトリをナビゲートするのに苦労している。
効果的なコードのローカライゼーションには、組織的コンテキスト(例えば、過去のイシューフィックスパターン)と、異種コードベース内の構造的関係の両方を理解する必要があります。
既存のメソッドも。
(i)単言語ベンチマークに焦点を絞る。
二 浅いテキスト類似性により言語を越えてコードを取得すること、又は
(三)事前の文脈を前提としない。
多言語コードベースをまたいだコンテキスト認識のローカライゼーションと推論のためのフレームワークであるMulti-CoLoRを提案する。
マルチCoLoRは以下の2段階で動作する。
i)類似のイシューコンテキスト(SIC)モジュールは,検索空間を熟考するために,意味的かつ組織的に関連する歴史的課題を検索する。
(ii)コードグラフトラバーサルエージェント(最先端のローカライゼーションフレームワークであるLocAgentの拡張バージョン)は、C++およびQMLコードベース内で構造的推論を実行する。
実世界のエンタープライズデータセットの評価によると、SICを導入することで検索スペースが減り、ローカライズ精度が向上し、グラフベースの推論はPythonのみのリポジトリをはるかに越えて効果的に一般化される。
Multi-CoLoRと組み合わせることで、Acc@5がレキシカルベースとグラフベースベースの両方で改善され、AMDコードベースでのツールコールが削減された。
関連論文リスト
- Can Large Language Models Understand, Reason About, and Generate Code-Switched Text? [26.210664542372168]
コードスイッチングは多言語通信において広く普及する現象であるが、混合言語環境における大規模言語モデル(LLM)の堅牢性は未だ十分に理解されていない。
我々は,16種類の並列コード切替言語ペアの変種からなる,高品質なヒューマンアノテーションを備えた新しいベンチマークであるCodeMixQAを紹介する。
コードスイッチングされた質問応答タスクにおけるLCMの推論動作を分析し、混合言語入力に対するモデル処理と推論の仕方について光を当てる。
論文 参考訳(メタデータ) (2026-01-12T02:52:38Z) - Completion by Comprehension: Guiding Code Generation with Multi-Granularity Understanding [37.78627994991325]
CoCoは、大規模なコードリポジトリから複数の粒度コンテキストでコード補完を可能にする新しいフレームワークである。
CrossCodeEvalとRepoEvalベンチマークの実験は、CoCoが最先端のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-04T07:37:59Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。