論文の概要: Keeping Code-Aware LLMs Fresh: Full Refresh, In-Context Deltas, and Incremental Fine-Tuning
- arxiv url: http://arxiv.org/abs/2511.14022v1
- Date: Tue, 18 Nov 2025 01:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.862683
- Title: Keeping Code-Aware LLMs Fresh: Full Refresh, In-Context Deltas, and Incremental Fine-Tuning
- Title(参考訳): コード認識LLMの更新:フルリフレッシュ、インコンテキストデルタ、インクリメンタルファインタニング
- Authors: Pradeep Kumar Sharma, Ishaan Puri, Mantinder Jit Singh, Swapnil Shivaprasad, Hritvik Shrivastava,
- Abstract要約: 我々は、以前のコードに保持を放棄することなく、モデルを新しい状態に保つ方法を研究している。
A)新しいスナップショットでモデル全体をトレーニングするフルリフレッシュ、(B)推論時に最近のデルタを注入するインコンテキストラーニング(ICL)、(C)デルタ由来のトレーニングセット上のインクリメンタルファインタニング(Inc-FT)の3つのファミリーを比較した。
削除されたパスに報いることなく、リネームをクレジットするエイリアス対応評価プロトコルと、削除されたパスの残余排出量を定量化する実用的なフォーッティングプローブをコントリビュートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern codebases evolve continuously: files are renamed or deleted; public APIs drift; behavior shifts within otherwise familiar modules. A model trained yesterday to map a developer's natural-language question to the exact set of repository file paths that matter will degrade tomorrow, even if the questions themselves look unchanged. In this paper we study, at system scale and across several widely used repositories, how to keep such a model fresh without surrendering retention on earlier code. We frame freshness as a form of domain drift between a base snapshot and the current HEAD, and we compare three families of update strategies: (A) Full Refresh, retraining the entire model at the new snapshot; (B) In-Context Learning (ICL) that injects recent deltas (raw git diffs or concise English summaries) at inference; and (C) Incremental Fine-Tuning (Inc-FT) on delta-derived training sets, with carefully controlled NEW:OLD mixing to mitigate catastrophic forgetting. We contribute an alias-aware evaluation protocol that credits rename while never rewarding deleted paths, and a practical Forgetting Probe that quantifies residual emissions of obsolete paths. Across Flask, SQLAlchemy, Pandas, and Poetry, Inc-FT with old-aware mixes delivers the best overall balance on mixed sets, ICL with English delta summaries delivers the fastest new-code lift when training is not feasible, and Full Refresh remains the ceiling when maximum NEW accuracy matters. We also compare Git-diff Inc-FT to full-file Inc-FT, showing that diffs excel in rename/delete-heavy windows while full-file context wins in behavior-change-heavy windows.
- Abstract(参考訳): 最新のコードベースは継続的に進化し、ファイルは改名または削除され、公開APIがドリフトし、他のモジュール内での振る舞いがシフトする。
昨日、開発者の自然言語質問を明日のリポジトリファイルパスの正確なセットにマッピングするようにトレーニングされたモデル。
本稿では,システム規模および複数の広く使用されているリポジトリにおいて,従来のコードに対する保持を放棄することなく,そのようなモデルを新しい状態に保つ方法について検討する。
A)新しいスナップショットでモデル全体をトレーニングするフルリフレッシュ、(B)最近のデルタ(raw git diffsまたは簡潔な英語要約)を推論で注入するインコンテクスト学習(ICL)、(C)デルタ由来のトレーニングセットにおけるインクリメンタルファインタニング(Inc-FT)、および慎重に制御されたNEW:OLD混合の3つの更新戦略を比較した。
削除されたパスに報いることなく、リネームをクレジットするエイリアス対応評価プロトコルと、削除されたパスの残余排出量を定量化する実用的なフォーッティングプローブをコントリビュートする。
Across Flask, SQLAlchemy, Pandas, and Poetry, Inc-FT with old-aware mixes, ICL with English delta summaries, Full Refresh are the ceiling when the maximum NEW accuracy important。
Git-diff Inc-FT と full-file Inc-FT を比較して,rename/delete-heavy ウィンドウではdiff が優れ,delete-heavy ウィンドウではフルファイルコンテキストが勝利することを示した。
関連論文リスト
- Training-Free Time Series Classification via In-Context Reasoning with LLM Agents [29.14242392533328]
時系列分類(TSC)は様々なアプリケーションシナリオにまたがるが、ラベル付きデータは少ないことが多い。
本稿では,事前の文脈推論による学習自由TSCのためのマルチエージェントフレームワークであるFETAを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:07:43Z) - Impact-driven Context Filtering For Cross-file Code Completion [19.717276276962483]
Retrieval-augmented Generation (RAG)は、最近リポジトリレベルのコード補完の可能性を示している。
検索したクロスファイルコンテキストのコントリビューションをよりよく理解するために,検索した各コードチャンクが完了に与える影響を評価する。
これらの結果は、リポジトリレベルのコード補完の正確性、効率、および属性性を高めるためのCODEの可能性を強調します。
論文 参考訳(メタデータ) (2025-08-08T03:08:19Z) - Query Drift Compensation: Enabling Compatibility in Continual Learning of Retrieval Embedding Models [18.67755359053732]
インデクシングを必要とせずに,すでにインデックス付け済みのコーパスを効果的に利用できるかを検討した。
安定性を維持するために,クエリとドキュメントの埋め込みの両方に埋込み蒸留を用いる。
本稿では,検索中に新しいクエリドリフト補償手法を提案し,新しいモデルクエリ埋め込みを従来の埋め込み空間に提案する。
論文 参考訳(メタデータ) (2025-05-27T14:52:52Z) - A Pipeline of Augmentation and Sequence Embedding for Classification of Imbalanced Network Traffic [0.0]
本稿では,頑健で正確な埋め込み手法を用いて,データセットのバランスと分類を行うパイプラインを提案する。
提案した拡張パイプラインとFS-Embeddingを組み合わせることで収束速度が向上し,モデルパラメータの数が大幅に減少することを示す。
論文 参考訳(メタデータ) (2025-02-26T07:55:24Z) - RAFT: Adapting Language Model to Domain Specific RAG [75.63623523051491]
本稿では、ドメイン内の「オープンブック」設定において、モデルが質問に答える能力を改善するためのトレーニングレシピであるRetrieval Augmented FineTuning(RAFT)を紹介する。
RAFTは、質問に答える助けとなる関連文書から、動詞の正しいシーケンスを引用することで、これを達成します。
RAFTは、PubMed、HotpotQA、Gorillaデータセット全体のモデルのパフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-15T09:26:02Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - BAFFLE: A Baseline of Backpropagation-Free Federated Learning [71.09425114547055]
フェデレートラーニング(FL)は、分散クライアントがローカルデータを共有せずにサーバモデルをまとめて訓練する一般的な原則である。
我々は、バックプロパゲーションを複数のフォワードプロセスに置き換えて勾配を推定する、BAFFLEと呼ばれる、バックプロパゲーションフリーなフェデレーション学習を開発する。
BAFFLEは、1)メモリ効率が高く、アップロード帯域幅に適しており、2)推論のみのハードウェア最適化とモデル量子化やプルーニングと互換性があり、3)信頼できる実行環境に適している。
論文 参考訳(メタデータ) (2023-01-28T13:34:36Z) - Queried Unlabeled Data Improves and Robustifies Class-Incremental
Learning [133.39254981496146]
クラス増分学習(Class-incremental Learning, CIL)は、新たに追加されたクラスを学習することと、以前に学習したクラス知識を保存することの間の悪名高いジレンマに悩まされる。
我々は、連続学習において「自由」な外部ラベル付きデータクエリを活用することを提案する。
CIL-QUDを堅牢化したバージョンにシームレスに拡張する。
論文 参考訳(メタデータ) (2022-06-15T22:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。