論文の概要: Beyond Function-Level Search: Repository-Aware Dual-Encoder Code Retrieval with Adversarial Verification
- arxiv url: http://arxiv.org/abs/2510.24749v1
- Date: Thu, 16 Oct 2025 18:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:46.00716
- Title: Beyond Function-Level Search: Repository-Aware Dual-Encoder Code Retrieval with Adversarial Verification
- Title(参考訳): 関数レベル探索を超えて: 逆検証付きレポジトリ対応デュアルエンコーダコード検索
- Authors: Aofan Liu, Shiyuan Song, Haoxuan Li, Cehao Yang, Yiyan Qi,
- Abstract要約: RepoAlign-Benchは、変更要求駆動シナリオ下でリポジトリレベルのコード検索を評価するために設計された最初のベンチマークである。
そこで我々は,逆反射型デュアルトウワーアーキテクチャであるReflectCodeを提案し,このアーキテクチャは逆向きのcode_encoder と doc_encoder コンポーネントを特徴とする。
実験の結果、ReflectCodeはTop-5の精度を12.2%改善し、7.1%のリコールを実現している。
- 参考スコア(独自算出の注目度): 11.965887077524577
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The escalating complexity of modern codebases has intensified the need for retrieval systems capable of interpreting cross-component change intents, a capability fundamentally absent in conventional function-level search paradigms. While recent studies have improved the alignment between natural language queries and code snippets, retrieving contextually relevant code for specific change requests remains largely underexplored. To address this gap, we introduce RepoAlign-Bench, the first benchmark specifically designed to evaluate repository-level code retrieval under change request driven scenarios, encompassing 52k annotated instances. This benchmark shifts the retrieval paradigm from function-centric matching to holistic repository-level reasoning. Furthermore, we propose ReflectCode, an adversarial reflection augmented dual-tower architecture featuring disentangled code_encoder and doc_encoder components. ReflectCode dynamically integrates syntactic patterns, function dependencies, and semantic expansion intents through large language model guided reflection. Comprehensive experiments demonstrate that ReflectCode achieves 12.2% improvement in Top-5 Accuracy and 7.1% in Recall over state-of-the-art baselines, establishing a new direction for context-aware code retrieval.
- Abstract(参考訳): 現代のコードベースのエスカレートする複雑さにより、従来の関数レベルの検索パラダイムに欠落する機能であるクロスコンポーネントな変更意図を解釈できる検索システムの必要性が高まっている。
近年の研究では、自然言語クエリとコードスニペットのアライメントが改善されているが、特定の変更要求に対してコンテキスト的に関連付けられたコードを取得することは、ほとんど探索されていない。
このギャップに対処するために、52kのアノテーション付きインスタンスを含む変更要求駆動シナリオ下でリポジトリレベルのコード検索を評価するように設計された最初のベンチマークであるRepoAlign-Benchを紹介します。
このベンチマークは、検索パラダイムを関数中心のマッチングから全体論的リポジトリレベルの推論にシフトさせる。
さらに,逆リフレクション拡張型デュアルトウワーアーキテクチャであるReflectCodeを提案し,コード_encoder と doc_encoder コンポーネントを特徴とする。
ReflectCodeは、大規模な言語モデルによるリフレクションを通じて、構文パターン、関数依存、セマンティック拡張インテントを動的に統合する。
総合的な実験により、ReflectCodeはTop-5の精度を12.2%改善し、7.1%のリコールを最先端のベースラインで実行し、コンテキスト対応のコード検索の新しい方向性を確立した。
関連論文リスト
- SaraCoder: Orchestrating Semantic and Structural Cues for Resource-Optimized Repository-Level Code Completion [34.41683042851225]
そこで本研究では,リソース最適化検索拡張手法であるSaraCoderを提案する。
限られたコンテキストウィンドウにおいて、情報の多様性と代表性を最大化する。
我々の研究は、複数の次元にわたる検索結果を体系的に洗練することは、より正確でリソース最適化されたリポジトリレベルのコード補完システムを構築するための新しいパラダイムを提供することを証明している。
論文 参考訳(メタデータ) (2025-08-13T11:56:05Z) - Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。
多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。
RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文 参考訳(メタデータ) (2025-07-14T02:36:27Z) - What to Retrieve for Effective Retrieval-Augmented Code Generation? An Empirical Study and Beyond [32.467437657603604]
リポジトリレベルのコード生成は、複雑なコード依存と長いコンテキストの処理における大きな言語モデル(LLM)の制限のため、依然として困難である。
ユーザクエリを実装ステップに分解し,セマンティックな記述マッチングを通じてAPIを検索する,チェーン・オブ・シントを利用した新しいコンテキスト統合手法であるAllianceCoderを提案する。
CoderEvalとRepoExecに関する広範な実験を通じて、AllianceCoderは最先端のパフォーマンスを実現し、Pass@1を既存のアプローチよりも最大20%改善した。
論文 参考訳(メタデータ) (2025-03-26T14:41:38Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。