論文の概要: Breaking Memorization Barriers in LLM Code Fine-Tuning via Information Bottleneck for Improved Generalization
- arxiv url: http://arxiv.org/abs/2510.16022v1
- Date: Wed, 15 Oct 2025 16:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.7801
- Title: Breaking Memorization Barriers in LLM Code Fine-Tuning via Information Bottleneck for Improved Generalization
- Title(参考訳): LLMコードファインチューニングにおけるインフォメーション・ボトルネックによるメモリ化バリアの破壊と一般化
- Authors: Changsheng Wang, Xin Chen, Sijia Liu, Ke Ding,
- Abstract要約: 本稿では,コードデータの隠蔽表現にIBペナルティを適用して,突発的で記憶された特徴を圧縮するIB-FTを提案する。
実験の結果、IB-FTは暗記障壁を実質的に緩和し、トップ1のパフォーマンスを改善し(Pass@$1$)、より厳密なマルチサンプル計量Pass@$k(m)$ではるかに安定したゲインを得ることがわかった。
- 参考スコア(独自算出の注目度): 16.516216230074757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting pretrained large language models (LLMs) to code domains via supervised fine-tuning (FT) has been commonly used for code generation. However, we identify a previously underappreciated failure mode, the memorization barrier, where strong memorization of downstream code data in the base model could trap optimization and prevent the standard FT from effectively acquiring new, generalizable code knowledge. To overcome this barrier, we propose the information bottleneck (IB)-guided fine-tuning, termed IB-FT, which applies an IB penalty on hidden representations of the code data to compress spurious, memorized features while preserving task-relevant information. Extensive experiments on two code benchmarks (OriGen and Evol-CodeAlpaca-V1) show that IB-FT substantially alleviates the memorization barrier, improves top-1 performance (Pass@$1$), and yields far more stable gains under the stricter multi-sample metric Pass@$k^{(m)}$ (a problem counts as solved only if at least $m$ of $k$ samples pass unit tests) compared with conventional FT.
- Abstract(参考訳): 訓練済みの大規模言語モデル(LLM)を教師付き微調整(FT)を介してコードドメインに適応させることは、一般的にコード生成に用いられている。
しかし,ベースモデルにおける下流コードデータの強い記憶が最適化をトラップし,標準FTが新たな一般化可能なコード知識を効果的に獲得するのを防ぐという,未承認の障害モード,記憶バリアを識別する。
この障壁を克服するため,IB-FTと呼ばれる情報ボトルネック(IB-Guided fine-tuning)を提案し,IBペナルティをコードデータの隠蔽表現に適用し,タスク関連情報を保存しながら,突発的で記憶された特徴を圧縮する。
2つのコードベンチマーク(OriGenとEvol-CodeAlpaca-V1)の大規模な実験によると、IB-FTは暗記障壁を実質的に緩和し、トップ1のパフォーマンスを改善し(Pass@$1$)、より厳密なマルチサンプル計量の下ではるかに安定したゲインを得る。
関連論文リスト
- Limited Reference, Reliable Generation: A Two-Component Framework for Tabular Data Generation in Low-Data Regimes [7.036974567001374]
ReFineは、ドメイン固有の機能の配布に向けて生成をガイドするフレームワークである。
様々な回帰と分類のベンチマークの実験では、ReFineは最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-12T04:34:46Z) - OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - CGP-Tuning: Structure-Aware Soft Prompt Tuning for Code Vulnerability Detection [15.013699967804987]
本稿では,脆弱性検出のためのCGP-Tuningを提案する。
CGP-Tuningでは、コードグラフ内のリッチなセマンティック情報をキャプチャするための型認識埋め込みと、効率的なクロスモーダルアライメントモジュールが導入されている。
最新のDiverseVulデータセットと3つの高度なオープンソースコードLLM、CodeLlama、CodeGemma、Qwen2.5-Coderで評価されている。
論文 参考訳(メタデータ) (2025-01-08T13:56:17Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval [80.96706764868898]
我々は、GLARE(Generative LAtent Feature based codebook Retrieval)を介して、新しい低照度画像強調(LLIE)ネットワークを提案する。
Invertible Latent Normalizing Flow (I-LNF) モジュールを開発し、LL特徴分布をNL潜在表現に整合させ、コードブック内の正しいコード検索を保証する。
さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れたパフォーマンスを確認する実験。
論文 参考訳(メタデータ) (2024-07-17T09:40:15Z) - BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials [27.573329030086676]
本研究では,自然言語理解(NLU)タスクのためのBiPFT(Bibinary Pretrained Foundation Transformer)を提案する。
BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させる
大規模な実験により、GLUEベンチマークでタスク固有のベースラインを平均15.4%上回るBiPFTの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-14T13:42:57Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [2.2329530239800035]
モデルがバイナリコードの複雑なニュアンスをキャプチャすることを保証するために,新しいリッチ・セマンティック関数表現手法を提案する。
新たに設計された2つのトレーニングタスクを含むUniASMという,UniLMベースのバイナリコード埋め込みモデルを紹介した。
実験の結果,UniASMは評価データセットに対する最先端(SOTA)アプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。