論文の概要: RepoShapley: Shapley-Enhanced Context Filtering for Repository-Level Code Completion
- arxiv url: http://arxiv.org/abs/2601.03378v1
- Date: Tue, 06 Jan 2026 19:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:22.988246
- Title: RepoShapley: Shapley-Enhanced Context Filtering for Repository-Level Code Completion
- Title(参考訳): RepoShapley: Repository-Levelコード補完のためのShapley拡張コンテキストフィルタリング
- Authors: Yu Huo, Siyu Zhang, Kun Zeng, Yuquan Lu, Cheng Yang, Yifu Guo, Xiaoying Tang,
- Abstract要約: RepoShapleyは、Shapleyスタイルの余分なコントリビューションによって管理される、連立を意識したコンテキストフィルタリングフレームワークである。
ChunkShapleyは(i)教師に強制された確率でサイン付き重み付き効果を推定する単一チャンク探索によってオフラインラベルを構築する。
検証済みの$KEEP$ または $DROP$ の決定と検索を個別の制御トークンを介して単一のモデルに抽出する。
- 参考スコア(独自算出の注目度): 15.967314350012755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Repository-level code completion benefits from retrieval-augmented generation (RAG). However, controlling cross-file evidence is difficult because chunk utility is often interaction-dependent: some snippets help only when paired with complementary context, while others harm decoding when they conflict. We propose RepoShapley, a coalition-aware context filtering framework supervised by Shapley-style marginal contributions. Our module ChunkShapley constructs offline labels by (i) single-chunk probing with teacher-forced likelihood to estimate signed, weighted effects, (ii) a surrogate game that captures saturation and interference, (iii) exact Shapley computation for small retrieval sets, and (iv) bounded post-verification that selects a decoding-optimal coalition using the frozen generator. We distill verified $KEEP$ or $DROP$ decisions and retrieval triggering into a single model via discrete control tokens. Experiments across benchmarks and backbones show that RepoShapley improves completion quality while reducing harmful context and unnecessary retrieval. Code: https://anonymous.4open.science/r/a7f3c9.
- Abstract(参考訳): リポジトリレベルのコード補完は、検索強化生成(RAG)の恩恵を受ける。
しかし、チャンクユーティリティはしばしば相互作用に依存しているため、ファイル間のエビデンスを制御することは難しい。
提案するRepoShapleyは,Shapleyスタイルの余分なコントリビューションによって管理される協調型コンテキストフィルタリングフレームワークである。
私たちのモジュールであるChunkShapleyはオフラインラベルを構築します
一 教師に強制された確率で、署名された重み付き効果を推定すること。
(ii)飽和と干渉を捉えた代理ゲーム
三 小さい検索集合に対する正確なシェープリー計算、及び
(4)凍結発生器を用いて復号・最適連立を選択する有界後検証
検証済みの$KEEP$ または $DROP$ の決定と検索を個別の制御トークンを介して単一のモデルに抽出する。
ベンチマークとバックボーンを使った実験では、RepoShapleyは有害なコンテキストと不要な検索を減らしながら、完了品質を改善している。
コード:https://anonymous.4open.science/r/a7f3c9。
関連論文リスト
- Shapley-Inspired Feature Weighting in $k$-means with No Additional Hyperparameters [2.3940819037450987]
クラスタリングアルゴリズムは、すべての機能がデータ構造に等しく寄与していると仮定することが多い。
SHARK(Shapley Reweighted $k$-means)は,Shapley値を用いた特徴量クラスタリングアルゴリズムである。
合成および実世界のデータセットの実験は、SHARKが既存の手法と一貫して一致し、性能を向上していることを示している。
論文 参考訳(メタデータ) (2025-08-11T13:07:21Z) - Impact-driven Context Filtering For Cross-file Code Completion [19.717276276962483]
Retrieval-augmented Generation (RAG)は、最近リポジトリレベルのコード補完の可能性を示している。
検索したクロスファイルコンテキストのコントリビューションをよりよく理解するために,検索した各コードチャンクが完了に与える影響を評価する。
これらの結果は、リポジトリレベルのコード補完の正確性、効率、および属性性を高めるためのCODEの可能性を強調します。
論文 参考訳(メタデータ) (2025-08-08T03:08:19Z) - When Retriever Meets Generator: A Joint Model for Code Comment Generation [3.6781644685120924]
RAGSumは、単一のCodeT5バックボーンを使用して、ヒューズ検索と生成の上に構築されている。
対照的な事前学習フェーズは、最寄りの探索のためのコード埋め込みを形作る。
最終出力を研磨するために、軽量な自己精製ループが配置される。
論文 参考訳(メタデータ) (2025-07-16T18:12:27Z) - Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings [65.31723739561151]
埋め込みは、エンコードされたセマンティクス内のきめ細かいエンティティやイベントを認識できないかもしれない。
本稿では,新たな評価データセットであるCapRetrievalを導入し,文節は画像キャプションであり,クエリはエンティティやイベントの概念を多種多様な形式でターゲットとするフレーズである。
我々は提案したデータ生成戦略でエンコーダを微調整し、小さな0.1Bエンコーダで最先端の7Bモデルを上回る性能を実現した。
論文 参考訳(メタデータ) (2025-06-10T09:00:33Z) - Self-Consistent Decoding for More Factual Open Responses [28.184313177333642]
Sample & Selectは、DoLA、P-CRR、S-CRRのデコーダに対して、30%の相対的なマージンで事実性を向上する。
生成した要約の人間による検証を収集し,本手法の実際的優位性を確認する。
論文 参考訳(メタデータ) (2024-03-01T17:31:09Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。