論文の概要: Do not copy and paste! Rewriting strategies for code retrieval
- arxiv url: http://arxiv.org/abs/2605.08299v1
- Date: Fri, 08 May 2026 11:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.546213
- Title: Do not copy and paste! Rewriting strategies for code retrieval
- Title(参考訳): コピー&ペーストしないで! コード検索のための書き直し戦略
- Authors: Andrea Gurioli, Federico Pennino, Maurizio Gabbrielli,
- Abstract要約: 本研究では,スタイリスティック・リフレッシング,NL強化PseudoCode,およびフル自然言語転写の3つの書き直し戦略の階層構造について検討する。
我々は,NLに富んだPseudoCodeとスニペットレベルの自然言語を,一貫した中間体ではなく直接検索表現として評価した。
我々は,デルタH,トークンエントロピー,デルタHの2つの診断手法を導入し,デルタHが3つのリライターファミリーのQC下での検索ゲインを予測することを示す。
- 参考スコア(独自算出の注目度): 0.7710436567988378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding-based code retrieval often suffers when encoders overfit to surface syntax. Prior work mitigates this by using LLMs to rephrase queries and corpora into a normalized style, but leaves two questions open: how much representational shift helps, and when is the per-query LLM call justified? We study a hierarchy of three rewriting strategies: stylistic rephrasing, NL-enriched PseudoCode, and full Natural-Language transcription, under joint query-corpus (QC, online) and corpus-only (C, offline) augmentation, across six CoIR benchmarks, five encoders, and three rewriters spanning independent model families (Qwen, DeepSeek, Mistral). We are the first to evaluate NL-enriched PseudoCode and snippet-level Natural Language as direct retrieval representations, rather than as transient intermediates. Full NL rewriting with QC yields the largest gains (+0.51 absolute NDCG@10 on CT-Contest for MoSE-18), while corpus-only rewriting degrades retrieval in 56 of 90 configurations, about 62%. We introduce two diagnostics, Delta H, token entropy, and Delta s, embedding cosine, and show that Delta H predicts retrieval gain under QC across all three rewriter families: pooled Spearman rho = +0.436, p < 0.001 on DeepSeek+Codestral; rho = +0.593 on Codestral alone; rho = +0.356 on Qwen. This establishes Delta H as a cheap, rewriter-agnostic proxy for deciding when rewriting pays off before running retrieval. Our analysis reframes LLM rewriting as a cost-benefit decision: it is most effective as a remediation layer for lightweight encoders on code-dominant queries, with diminishing returns for strong encoders or NL-heavy queries.
- Abstract(参考訳): 埋め込みベースのコード検索は、エンコーダが構文を表わすのに過度に適合すると、しばしば苦しむ。
以前の作業では、クエリとコーパスを正規化されたスタイルにリフレッシュするためにLLMを使用することで、これを緩和しています。
文体表現, NL-enriched PseudoCode, and full Natural-Language transcription, under joint query-corpus (QC, online) and corpus-only augmentation (C, offline) augmentation, across six CoIR benchmarks, five encoder and three rewriters across independent model family (Qwen, DeepSeek, Mistral)。
我々は,NLに富んだPseudoCodeとスニペットレベルの自然言語を,一貫した中間体ではなく直接検索表現として評価した。
QCによる完全なNL書き換えは、CT-Contest for MoSE-18において、最大利得(+0.51絶対NDCG@10)となり、コーパスのみの書き換えは、90の構成のうち56で、約62%で劣化する。
Delta H, トークンエントロピー, Delta sの2つの診断法を導入し, コサインを埋め込むことにより, Delta Hが3つのリライターファミリーのQC下での検索ゲインを予測することを示す: pooled Spearman rho = +0.436, p < 0.001, rho = +0.593, rho = +0.356, Qwen。
これによりDelta Hは、検索を実行する前に書き直しが支払われるかどうかを決定するための、安価で書き直しに依存しないプロキシとして確立される。
コード支配型クエリの軽量エンコーダの修復レイヤとして最も有効であり,強エンコーダやNL重大クエリのリターンが低下する。
関連論文リスト
- Beyond Retrieval: A Multitask Benchmark and Model for Code Search [21.20978098597112]
textscCoREBは、5つのプログラミング言語でLiveCodeBenchの問題を偽装的に書き直して作られている。
11の埋め込みモデルと5つのリランカをテキスト・トゥ・コード、コード・トゥ・テキスト、コード・トゥ・コードという3つのタスクでベンチマークする。
textscCoREB-Rerankerは、3つのタスクで一貫したゲインを達成する最初の方法です。
論文 参考訳(メタデータ) (2026-05-06T08:05:17Z) - NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code [49.610331036334316]
我々はNeRF研究論文をトレーニング可能なNerfstudioプラグインに確実に変換するフレームワークであるNERFIFYを紹介する。
コード、データ、実装が公開される。
論文 参考訳(メタデータ) (2026-02-28T20:57:32Z) - Are Hypervectors Enough? Single-Call LLM Reasoning over Knowledge Graphs [13.99794289273847]
ニューラルパスのスコアリングを超次元計算に置き換える軽量なKG推論フレームワークであるPathHDを提案する。
PathHDはブロック対角GHRRハイパーベクターにリレーションパスをエンコードし、ブロックワイズコサインの類似性とトップKプルーニングの候補をランク付けし、ワンショットの述語を実行する。
WebQSP、CWQ、GrailQAのスプリットでは、PathHD(i)は、クエリ毎に1つのLLMコールを使用しながら、強力なニューラルネットワークベースラインよりも、Hits@1に匹敵するか、あるいは優れている。
論文 参考訳(メタデータ) (2025-12-10T07:06:52Z) - ARCS: Agentic Retrieval-Augmented Code Synthesis with Iterative Refinement [1.980982378865332]
ARCSは凍結モデル上で、予算化された合成実行再生ループを介して動作する。
生成前に関連するコードコンテキストを検索し、候補を提案し、テストに対して実行し、実行フィードバックに基づいて修正する。
LANLの科学コーパスでは、ベースラインRAGよりも+0.115改良されている。
論文 参考訳(メタデータ) (2025-04-29T05:15:52Z) - Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。
既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。
そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文 参考訳(メタデータ) (2025-03-04T05:39:24Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search [7.822427053078387]
Generation-Augmented Retrieval (GAR)フレームワークは、クエリを拡張するための例のコードスニペットを生成する。
本稿では、forスタイルの正規化内でコード(ReCo)を書き換える、シンプルで効果的な方法を提案する。
コードスタイル類似度(Code Style similarity)は、コード内のスタイリスティック類似度を定量化するための最初のメートル法である。
論文 参考訳(メタデータ) (2024-01-09T12:12:50Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。