論文の概要: CoRet: Improved Retriever for Code Editing
- arxiv url: http://arxiv.org/abs/2505.24715v1
- Date: Fri, 30 May 2025 15:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.041759
- Title: CoRet: Improved Retriever for Code Editing
- Title(参考訳): CoRet: コード編集のためのレトリバーの改善
- Authors: Fabio Fehr, Prabhu Teja Sivaprasad, Luca Franceschi, Giovanni Zappella,
- Abstract要約: CoRetは、コード編集タスクの厳密な検索モデルである。
コードセマンティクス、リポジトリ構造、コールグラフの依存関係を統合する。
自然言語クエリに基づいて、コードリポジトリの関連部分を検索する。
- 参考スコア(独自算出の注目度): 11.165479379163985
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we introduce CoRet, a dense retrieval model designed for code-editing tasks that integrates code semantics, repository structure, and call graph dependencies. The model focuses on retrieving relevant portions of a code repository based on natural language queries such as requests to implement new features or fix bugs. These retrieved code chunks can then be presented to a user or to a second code-editing model or agent. To train CoRet, we propose a loss function explicitly designed for repository-level retrieval. On SWE-bench and Long Code Arena's bug localisation datasets, we show that our model substantially improves retrieval recall by at least 15 percentage points over existing models, and ablate the design choices to show their importance in achieving these results.
- Abstract(参考訳): 本稿では,コードセマンティクス,リポジトリ構造,コールグラフ依存性を統合したコード編集タスク用に設計された高密度検索モデルであるCoRetを紹介する。
モデルは、新機能の実装やバグ修正の要求など、自然言語クエリに基づいて、コードリポジトリの関連部分を取得することに焦点を当てている。
これらの取得されたコードチャンクは、ユーザまたは第2のコード編集モデルまたはエージェントに提示することができる。
CoRetを学習するために,リポジトリレベルの検索のために明示的に設計された損失関数を提案する。
SWE-benchとLong Code Arenaのバグローカライゼーションデータセットでは、既存のモデルよりも少なくとも15パーセントのリカバリが大幅に改善され、これらの結果を達成する上での重要性を示す設計上の選択が緩和されることが示されている。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。