論文の概要: When Retrieval Hurts Code Completion: A Diagnostic Study of Stale Repository Context
- arxiv url: http://arxiv.org/abs/2605.14478v1
- Date: Thu, 14 May 2026 07:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.681194
- Title: When Retrieval Hurts Code Completion: A Diagnostic Study of Stale Repository Context
- Title(参考訳): Retrieval Hurts Code Completion: : Stale Repositoryコンテキストの診断的研究
- Authors: Haojun Weng, Qianqian Yang, Hao Fu, Haobin Pan, Xinwei Lv,
- Abstract要約: Retrievalの拡張されたコード生成は、クロスファイルリポジトリのコンテキストに依存するが、検索されたスニペットは、時代遅れのプロジェクト状態から来る可能性がある。
時間的に古いリポジトリスニペットが無害なノイズとして振る舞うか、あるいは現在非互換なコードを積極的に誘導するかを検討する。
- 参考スコア(独自算出の注目度): 4.235809074981841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Retrieval-augmented code generation relies on cross-file repository context, but retrieved snippets may come from obsolete project states. Objectives: We study whether temporally stale repository snippets act as harmless noise or actively induce current-state-incompatible code. Methods: We conduct a controlled diagnostic study on a curated 17-sample set of production-helper signature changes from five Python repositories. For each sample, we compare current-only, stale-only, no-retrieval, and mixed current/stale retrieval conditions under prompts that hide commit freshness and expected current signatures. Results: Under neutralized prompts, stale-only retrieval induces stale helper references on 15/17 Qwen2.5-Coder-7B-Instruct samples and 13/17 gpt-4.1-mini samples, corresponding to 88.2 and 76.5 percentage-point increases over current-only retrieval. No retrieval produces zero stale references but only 1/17 passing completions. The two models share 75.0% Jaccard overlap among stale-triggering samples, and mixed conditions show that adding valid current evidence largely rescues stale-only failures. Conclusion: Temporal validity of retrieved repository context is a distinct diagnostic variable for Code RAG robustness: stale context can actively bias models toward obsolete repository state rather than merely removing useful evidence.
- Abstract(参考訳): コンテキスト: Retrievalの拡張されたコード生成は、クロスファイルリポジトリのコンテキストに依存しますが、検索されたスニペットは、古いプロジェクト状態から来ます。
目的: 時間的に古いリポジトリスニペットが無害なノイズとして振る舞うか、あるいは現在非互換なコードを積極的に誘導するかを検討する。
方法: 5つのPythonレポジトリから17サンプルのプロダクション・ヘルパーシグネチャ変更をキュレートしたセットについて,制御された診断研究を行う。
各サンプルについて、コミットの鮮度と期待される現在のシグネチャを隠蔽するプロンプトの下で、現在のオンリー、スタルオン、非検索、混合電流/スタル検索条件を比較した。
結果:中和プロンプト下では, スタイルのみ検索は15/17 Qwen2.5-Coder-7B-インストラクトサンプルと13/17 gpt-4.1-miniサンプルに対して, 現在の検索よりも88.2と76.5のパーセンテージ増加に対応して, スタイルヘルパー参照を誘導する。
検索はゼロの古い参照を生成するが、1/17のパス完了しか生成しない。
2つのモデルでは、ジャカルドが75.0%の重なり合いを持ち、混合条件により、有効な現在の証拠を追加することで、古いもののみの故障がほぼ解消されることが示された。
結論: 検索されたリポジトリコンテキストの時間的妥当性は、コードRAGの堅牢性に対する明確な診断変数である。
関連論文リスト
- Code-Centric Detection of Vulnerability-Fixing Commits: A Unified Benchmark and Empirical Study [4.512751676075442]
本稿では,統合フレームワークによる言語モデルに基づくVFC検出の包括的評価を行う。
コードの変更だけで、モデルが転送可能なセキュリティ関連コードを理解する証拠は見つからない。
グループ階層評価は、ランダムスプリットに比べて約17%のパフォーマンス低下を露呈する。
論文 参考訳(メタデータ) (2026-05-13T08:05:14Z) - BUILD-AND-FIND: An Effort-Aware Protocol for Evaluating Agent-Managed Codebases [0.0]
BUILD-AND-FINDは、下流エージェントが生成されたリポジトリから意図した選択を復元できるかどうかを評価するプロトコルである。
各タスクに対して、ビルダーは隠されたリポジトリの仕様を見て、仕様に書かれた複数選択の質問バンクを作成します。
このプロトコルは、行動の正しさをアーティファクト側のリカバリから切り離し、リカバリの正確性、再現性、実装のカバレッジ、検査の労力を報告します。
論文 参考訳(メタデータ) (2026-05-07T12:35:27Z) - DataDignity: Training Data Attribution for Large Language Models [8.195274857647782]
我々は3,537個のウィキペディア風記事のベンチマークであるFakeWikiを紹介した。
FakeWikiにはQAプローブ、ソース保存のパラフレーズ、レトロ生成の変種、解答クリティカルな事実を取り除きながら、極端に類似した硬いアンチドキュメントが含まれている。
我々は,7つの検索ベースライン,トレーニング不要なアクティベーション・ステアリング・検索・フュージョン法,SteerFuse,および教師付きコントラスト・プロファイランス・ローダであるScoringModelを評価した。
論文 参考訳(メタデータ) (2026-05-07T05:27:45Z) - FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - Verifier-Bound Communication for LLM Agents: Certified Bounds on Covert Signaling [0.0]
言語モデルエージェントを結合することで、ポリシーに準拠したメッセージの調整を表面レベルで隠蔽することができる。
生成と受け入れを分離するプロトコルであるCLBCを提案する。
このプロトコルは、遅延リークと明示的な残留チャネルの観点から、転写リークの上限をいかに高めるかを示す。
論文 参考訳(メタデータ) (2026-02-27T23:42:37Z) - SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [50.93758649363798]
Impliretは、推論の課題をドキュメント側処理にシフトするベンチマークである。
我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文 参考訳(メタデータ) (2025-06-17T11:08:29Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。