論文の概要: SweRank+: Multilingual, Multi-Turn Code Ranking for Software Issue Localization
- arxiv url: http://arxiv.org/abs/2512.20482v1
- Date: Tue, 23 Dec 2025 16:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.933769
- Title: SweRank+: Multilingual, Multi-Turn Code Ranking for Software Issue Localization
- Title(参考訳): SweRank+: ソフトウェア問題ローカライゼーションのための多言語多言語コードランキング
- Authors: Revanth Gangi Reddy, Ye Liu, Wenting Zhao, JaeHyeok Doo, Tarun Suresh, Daniel Lee, Caiming Xiong, Yingbo Zhou, Semih Yavuz, Shafiq Joty,
- Abstract要約: SweRank+は、言語間のコードランキングツールであるSweRankMultiと、エージェント検索のセットアップであるSweRankAgentを、コードリポジトリ上の反復的マルチターン推論のために結合するフレームワークである。
SweRankMultiでは,各言語にまたがる問題ローカライゼーションのベンチマーク実験を行い,SweRankAgentではシングルパスランキングよりもローカライゼーションが向上した。
- 参考スコア(独自算出の注目度): 85.2081165593314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintaining large-scale, multilingual codebases hinges on accurately localizing issues, which requires mapping natural-language error descriptions to the relevant functions that need to be modified. However, existing ranking approaches are often Python-centric and perform a single-pass search over the codebase. This work introduces SweRank+, a framework that couples SweRankMulti, a cross-lingual code ranking tool, with SweRankAgent, an agentic search setup, for iterative, multi-turn reasoning over the code repository. SweRankMulti comprises a code embedding retriever and a listwise LLM reranker, and is trained using a carefully curated large-scale issue localization dataset spanning multiple popular programming languages. SweRankAgent adopts an agentic search loop that moves beyond single-shot localization with a memory buffer to reason and accumulate relevant localization candidates over multiple turns. Our experiments on issue localization benchmarks spanning various languages demonstrate new state-of-the-art performance with SweRankMulti, while SweRankAgent further improves localization over single-pass ranking.
- Abstract(参考訳): 大規模な多言語コードベースを維持することは、問題の正確なローカライズに重きを置いているため、自然言語のエラー記述を修正すべき関連する関数にマッピングする必要がある。
しかし、既存のランク付けアプローチは、しばしばPython中心であり、コードベース上でシングルパス検索を実行する。
この記事では、SweRankMultiとエージェント検索のセットアップであるSweRankAgentを結合して、コードリポジトリ上の反復的マルチターン推論を行うフレームワークであるSweRank+を紹介する。
SweRankMultiはコード埋め込みレトリバーとリストワイズLLMリランカを備え、複数の人気のあるプログラミング言語にまたがる大規模イシューローカライゼーションデータセットを使用して、慎重に訓練されている。
SweRankAgentは、メモリバッファによるシングルショットローカライゼーションを超えて、関連するローカライゼーション候補を複数のターンで推論し、蓄積するエージェント検索ループを採用している。
SweRankMultiでは,各言語にまたがる問題ローカライゼーションのベンチマーク実験を行い,SweRankAgentではシングルパスランキングよりもローカライゼーションが向上した。
関連論文リスト
- What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models [0.19116784879310025]
リソース、スクリプト、埋め込みモデルにおける弱い言語間セマンティックアライメントの相違により、言語間情報検索は困難である。
既存のパイプラインは、しばしば翻訳と単言語検索に依存し、計算オーバーヘッドとノイズ、パフォーマンスを追加する。
この研究は、文書翻訳、事前訓練されたエンコーダによる多言語密集検索、単語、フレーズ、クエリー文書レベルのコントラスト学習、および3つのベンチマークデータセットにおけるクロスエンコーダの再ランク付けという、4つの介入タイプを体系的に評価する。
論文 参考訳(メタデータ) (2025-11-24T17:17:40Z) - SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - RAMQA: A Unified Framework for Retrieval-Augmented Multi-Modal Question Answering [9.915889321513678]
RAMQAは、学習からランクまでの手法と、生成的な置換によるランク付け技術を組み合わせた統一的なフレームワークである。
生成的ランキングモデルでは,文書候補から再ランク付けされた文書IDと特定の回答を生成する。
論文 参考訳(メタデータ) (2025-01-23T00:50:33Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - AGRaME: Any-Granularity Ranking with Multi-Vector Embeddings [53.78802457488845]
我々は,多ベクトル埋め込みを利用して粒度の異なるレベルにランク付けする,任意の粒度ランキングの考え方を紹介した。
検索強化世代におけるポストホック励振付加への命題レベルのランク付けの適用を実証する。
論文 参考訳(メタデータ) (2024-05-23T20:04:54Z) - Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling [32.10366004426449]
本稿では,教師なしの高密度多言語レトリバーUMRについて紹介する。
本稿では,多言語高密度検索器の性能を反復的に向上する2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T07:49:06Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。