論文の概要: Beyond Retrieval: A Multitask Benchmark and Model for Code Search
- arxiv url: http://arxiv.org/abs/2605.04615v2
- Date: Fri, 08 May 2026 04:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.839005
- Title: Beyond Retrieval: A Multitask Benchmark and Model for Code Search
- Title(参考訳): Beyond Retrieval: コード検索のためのマルチタスクベンチマークとモデル
- Authors: Siqiao Xue, Zihan Liao, Jin Qin, Ziyin Zhang, Yixiang Mu, Fan Zhou, Hang Yu,
- Abstract要約: textscCoREBは、5つのプログラミング言語でLiveCodeBenchの問題を偽装的に書き直して作られている。
11の埋め込みモデルと5つのリランカをテキスト・トゥ・コード、コード・トゥ・テキスト、コード・トゥ・コードという3つのタスクでベンチマークする。
textscCoREB-Rerankerは、3つのタスクで一貫したゲインを達成する最初の方法です。
- 参考スコア(独自算出の注目度): 21.20978098597112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code search has usually been evaluated as first-stage retrieval, even though production systems rely on broader pipelines with reranking and developer-style queries. Existing benchmarks also suffer from data contamination, label noise, and degenerate binary relevance. In this paper, we introduce \textsc{CoREB}, a contamination-limited, multitask \underline{co}de \underline{r}etrieval and r\underline{e}ranking \underline{b}enchmark, together with a fine-tuned code reranker, that goes beyond retrieval to cover the full code search pipeline. \textsc{CoREB} is built from counterfactually rewritten LiveCodeBench problems in five programming languages and delivered as timed releases with graded relevance judgments. We benchmark eleven embedding models and five rerankers across three tasks: text-to-code, code-to-text, and code-to-code. Our experiments reveal that: \circone code-specialised embeddings dominate code-to-code retrieval (${\sim}2{\times}$ over general encoders), yet no single model wins all three tasks; \circtwo short keyword queries, the format closest to real developer search, collapse every model to near-zero nDCG@10; \circthree off-the-shelf rerankers are task-asymmetric, with a 12-point swing on code-to-code and no baseline net-positive across all tasks; \circfour our fine-tuned \textsc{CoREB-Reranker} is the first to achieve consistent gains across all three tasks. The data and model are released.
- Abstract(参考訳): コード検索は通常第一段階の検索として評価されているが、プロダクションシステムはリランクと開発者スタイルのクエリを備えたより広範なパイプラインに依存している。
既存のベンチマークでは、データ汚染、ラベルノイズ、二値関係の退化といった問題も抱えている。
本稿では,汚染に制限されたマルチタスク \underline{co}de \underline{r}etrieval と r\underline{e} rank \underline{b}enchmark の \textsc{CoREB} と,コード検索パイプライン全体を網羅する精細なコードリランカを紹介する。
\textsc{CoREB}は、5つのプログラミング言語でLiveCodeBenchの問題を事実上書き直して構築され、段階的な関連性判断を伴うタイムドリリースとして配信される。
11の埋め込みモデルと5つのリランカをテキスト・トゥ・コード、コード・トゥ・テキスト、コード・トゥ・コードという3つのタスクでベンチマークする。
2つの短いキーワードクエリは、実際の開発者検索に最も近いフォーマットで、すべてのモデルをほぼゼロに近いnDCG@10に分解します。
データとモデルがリリースされる。
関連論文リスト
- Theory Under Construction: Orchestrating Language Models for Research Software Where the Specification Evolves [1.0312968200748116]
大規模な言語モデルは、実質的なコードと研究テキストを生成することができるが、研究ソフトウェアプロジェクトは、どちらのアーティファクトも必要としない。
我々は,幻覚の蓄積とデシンクロナイゼーションという,LM固有の障害モードを2つ同定する。
本研究では,1つのワークスペース状態の座標として,アイデア,実装,評価,グラウンド,ペーパーライティングを編成する反復的プロンプトであるComet-Hを提案する。
論文 参考訳(メタデータ) (2026-04-29T21:28:17Z) - RANGER -- Repository-Level Agent for Graph-Enhanced Retrieval [0.38298911754746934]
汎用自動化ソフトウェアエンジニアリング(ASE)には、コード補完、検索、修復、QA、要約といったタスクが含まれる。
これらのタスクは、コードエンティティやコードエンティティクエリに関する特定のクエリを処理できるコード検索システムを必要とする。
本稿では、両方のクエリタイプに対応するように設計されたリポジトリレベルのコード検索エージェントであるRANGERを紹介する。
論文 参考訳(メタデータ) (2025-09-27T18:57:02Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。