論文の概要: On the Challenges and Opportunities of Learned Sparse Retrieval for Code
- arxiv url: http://arxiv.org/abs/2603.22008v1
- Date: Mon, 23 Mar 2026 14:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.706456
- Title: On the Challenges and Opportunities of Learned Sparse Retrieval for Code
- Title(参考訳): 学習されたコードのスパース検索の課題と機会について
- Authors: Simon Lupart, Maxime Louis, Thibault Formal, Hervé Déjean, Stéphane Clinchant,
- Abstract要約: SPLADE-Codeは、コード検索に特化した学習スパース検索モデルの最初の大規模ファミリである。
本研究では,SPLADE-Codeが1Bパラメータ下での検索者間の最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 13.929722643500341
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval over large codebases is a key component of modern LLM-based software engineering systems. Existing approaches predominantly rely on dense embedding models, while learned sparse retrieval (LSR) remains largely unexplored for code. However, applying sparse retrieval to code is challenging due to subword fragmentation, semantic gaps between natural-language queries and code, diversity of programming languages and sub-tasks, and the length of code documents, which can harm sparsity and latency. We introduce SPLADE-Code, the first large-scale family of learned sparse retrieval models specialized for code retrieval (600M-8B parameters). Despite a lightweight one-stage training pipeline, SPLADE-Code achieves state-of-the-art performance among retrievers under 1B parameters (75.4 on MTEB Code) and competitive results at larger scales (79.0 with 8B). We show that learned expansion tokens are critical to bridge lexical and semantic matching, and provide a latency analysis showing that LSR enables sub-millisecond retrieval on a 1M-passage collection with little effectiveness loss.
- Abstract(参考訳): 大規模なコードベース上での検索は、現代のLLMベースのソフトウェアエンジニアリングシステムの主要なコンポーネントである。
既存のアプローチは主に密埋め込みモデルに依存しているが、学習されたスパース検索(LSR)はコードに対してほとんど探索されていない。
しかし、サブワードの断片化、自然言語クエリとコード間のセマンティックギャップ、プログラミング言語とサブタスクの多様性、重複性と遅延を損なうコードドキュメントの長さなど、コードにスパース検索を適用することは困難である。
SPLADE-Codeは,コード検索に特化した学習スパース検索モデル(600M-8Bパラメータ)の最初の大規模ファミリである。
軽量なワンステージトレーニングパイプラインにもかかわらず、SPLADE-Codeは1Bパラメータ(MTEB Codeでは75.4)とより大きなスケール(79.0と8B)の競争結果の下で、最先端のパフォーマンスを達成する。
学習した拡張トークンは語彙とセマンティックマッチングをブリッジするのに重要であることを示し、LSRが1Mパスコレクション上で1ミリ秒未満の検索が可能であり、効率の低下が少ないことを示す遅延解析を提供する。
関連論文リスト
- AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文 参考訳(メタデータ) (2026-01-27T15:23:14Z) - SpIDER: Spatially Informed Dense Embedding Retrieval for Software Issue Localization [6.098008057625392]
エージェントアプローチは一般的に、BM25のようなスパース検索手法や、関連するユニットを特定するための密着型埋め込み戦略を用いる。
本研究では,LLMに基づく補助的文脈に基づく推論を組み込んだ高密度検索手法であるSpIDERを提案する。
実験結果から,SpIDERは複数のプログラミング言語間の密集検索性能を一貫して向上することが示された。
論文 参考訳(メタデータ) (2025-12-18T01:32:25Z) - LLMs as Sparse Retrievers:A Framework for First-Stage Product Search [103.70006474544364]
プロダクト検索は、現代のeコマースプラットフォームにおいて重要な要素であり、毎日何十億ものユーザークエリがある。
スパース検索法は語彙ミスマッチの問題に悩まされ, 製品検索のシナリオにおいて, 最適以下の性能が向上する。
セマンティック分析の可能性により、大言語モデル(LLM)は語彙ミスマッチ問題を緩和するための有望な道を提供する。
本稿では,SParsE Retrievers として LLM を利用した製品検索フレームワーク PROSPER を提案する。
論文 参考訳(メタデータ) (2025-10-21T11:13:21Z) - LoRACode: LoRA Adapters for Code Embeddings [1.5525560291268214]
コード検索のためのタスク固有アダプタを構築するために,ローランド適応(LoRA)に基づくパラメータ効率の微調整手法を提案する。
提案手法では,トレーニング可能なパラメータの数をベースモデルの2%未満に削減し,広範なコードコーパスを高速に微調整する。
論文 参考訳(メタデータ) (2025-03-07T10:50:45Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。