論文の概要: Practical Code RAG at Scale: Task-Aware Retrieval Design Choices under Compute Budgets
- arxiv url: http://arxiv.org/abs/2510.20609v1
- Date: Thu, 23 Oct 2025 14:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.135991
- Title: Practical Code RAG at Scale: Task-Aware Retrieval Design Choices under Compute Budgets
- Title(参考訳): 大規模コードの実践的RAG:計算予算下でのタスク対応検索設計選択
- Authors: Timur Galimzyanov, Olga Kolomyttseva, Egor Bogomolov,
- Abstract要約: 本研究では,現実的な計算予算下でのコード中心生成タスクの検索設計について検討する。
我々は, (i) チャンキング戦略, (ii) 類似度スコア, (iii) 粒度を分割する3つの軸に沿って, 様々なコンテキストウィンドウサイズにわたる検索構成を比較した。
- 参考スコア(独自算出の注目度): 1.933829683108616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study retrieval design for code-focused generation tasks under realistic compute budgets. Using two complementary tasks from Long Code Arena -- code completion and bug localization -- we systematically compare retrieval configurations across various context window sizes along three axes: (i) chunking strategy, (ii) similarity scoring, and (iii) splitting granularity. (1) For PL-PL, sparse BM25 with word-level splitting is the most effective and practical, significantly outperforming dense alternatives while being an order of magnitude faster. (2) For NL-PL, proprietary dense encoders (Voyager-3 family) consistently beat sparse retrievers, however requiring 100x larger latency. (3) Optimal chunk size scales with available context: 32-64 line chunks work best at small budgets, and whole-file retrieval becomes competitive at 16000 tokens. (4) Simple line-based chunking matches syntax-aware splitting across budgets. (5) Retrieval latency varies by up to 200x across configurations; BPE-based splitting is needlessly slow, and BM25 + word splitting offers the best quality-latency trade-off. Thus, we provide evidence-based recommendations for implementing effective code-oriented RAG systems based on task requirements, model constraints, and computational efficiency.
- Abstract(参考訳): 本研究では,現実的な計算予算下でのコード中心生成タスクの検索設計について検討する。
Long Code Arenaの2つの補完的なタスク -- コード補完とバグローカライゼーション -- を使用することで、3つの軸に沿ったさまざまなコンテキストウィンドウサイズにわたる検索構成を体系的に比較する。
(i)チャンキング戦略、
(二)類似点、及び
(三)粒度を分けること。
1)PL-PLの場合,単語レベルで分割したスパースBM25が最も効果的で実用的であり,より高速な順序で高密度な代替品よりも優れていた。
2) NL-PLの場合、プロプライエタリな高密度エンコーダ(Voyager-3 family)は、100倍のレイテンシを必要とするが、常にスパースレトリバーを上回った。
32-64行のチャンクは小さな予算で最適に機能し、ファイル全体の検索は16000トークンで競合する。
(4) 単純な行ベースのチャンキングは、構文認識の予算分割と一致します。
BPEベースのスプリッティングは必然的に遅く、BM25 + ワードスプリッティングは最高の品質とレイテンシのトレードオフを提供する。
そこで本研究では,タスク要求,モデル制約,計算効率に基づいて,効果的なコード指向RAGシステムを実装するためのエビデンスベースのレコメンデーションを提案する。
関連論文リスト
- A*-Decoding: Token-Efficient Inference Scaling [0.0]
推論時間スケーリングは、言語モデルのパフォーマンスを改善するためのパラメータスケーリングの強力な代替手段として登場した。
A*-decoding(A*-decoding)は、A*検索アルゴリズムに基づいて、固定された計算予算を最適に活用する検索ベースの推論時戦略である。
我々の研究は、より効率的でスケーラブルな言語モデルのデプロイメントにおける将来的な進歩を指して、思慮深い推論時戦略がSLMの推論をいかに向上させるかを実証している。
論文 参考訳(メタデータ) (2025-05-19T19:19:48Z) - $φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation [22.607133083903125]
インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。
我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。
実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-17T15:38:33Z) - Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。
実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。
OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文 参考訳(メタデータ) (2024-10-29T19:17:55Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Sequential and Shared-Memory Parallel Algorithms for Partitioned Local
Depths [0.0]
PaLDは相対距離に基づいて対関係の強さを同定する手法である。
性能最適化戦略を導入し、ベースラインのシーケンシャルな実装に対して、最大29ドル以上のシーケンシャルなスピードアップを実現した。
論文 参考訳(メタデータ) (2023-07-31T13:32:39Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。