論文の概要: Embarrassingly Simple Self-Distillation Improves Code Generation
- arxiv url: http://arxiv.org/abs/2604.01193v1
- Date: Wed, 01 Apr 2026 17:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.124444
- Title: Embarrassingly Simple Self-Distillation Improves Code Generation
- Title(参考訳): 恥ずかしいほど単純な自己蒸留がコード生成を改善する
- Authors: Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang,
- Abstract要約: 本研究では,大規模言語モデル(LLM)が,検証器や教師モデル,強化学習を使わずに,独自の生の出力のみを用いてコード生成において改善可能であることを示す。
自己蒸留 (SSD) を用いて, 一定の温度, トラクション構成のモデルから溶液を採取し, それらの試料に標準的な微調整を施した。
SSDはQwenとLlamaのモデルを4B、8B、30Bスケールで一般化する。
- 参考スコア(独自算出の注目度): 35.300416675866664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can a large language model (LLM) improve at code generation using only its own raw outputs, without a verifier, a teacher model, or reinforcement learning? We answer in the affirmative with simple self-distillation (SSD): sample solutions from the model with certain temperature and truncation configurations, then fine-tune on those samples with standard supervised fine-tuning. SSD improves Qwen3-30B-Instruct from 42.4% to 55.3% pass@1 on LiveCodeBench v6, with gains concentrating on harder problems, and it generalizes across Qwen and Llama models at 4B, 8B, and 30B scale, including both instruct and thinking variants. To understand why such a simple method can work, we trace these gains to a precision-exploration conflict in LLM decoding and show that SSD reshapes token distributions in a context-dependent way, suppressing distractor tails where precision matters while preserving useful diversity where exploration matters. Taken together, SSD offers a complementary post-training direction for improving LLM code generation.
- Abstract(参考訳): 大きな言語モデル(LLM)は、検証子、教師モデル、強化学習なしで、独自の生の出力のみを使用してコード生成を改善することができるか?
簡単な自己蒸留法(SSD: Simple Self-distillation)では, 一定の温度, トランケーション構成のモデルから試料を抽出し, 標準教師付き微調整で試料を微調整する。
SSDはQwen3-30B-Instructを、LiveCodeBench v6で42.4%から55.3%パス@1に改善し、難しい問題に集中し、QwenとLlamaのモデルを4B、8B、30Bスケールで一般化する。
このような単純な方法がなぜ機能するのかを理解するために,LLM復号法における精密探索競合に追従し,SSDがコンテキスト依存的な方法でトークン分布を再現することを示す。
SSDは、LCMコード生成を改善するための補完的な後トレーニングの方向を提供する。
関連論文リスト
- Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Self Speculative Decoding for Diffusion Large Language Models [21.955478721386953]
拡散に基づく大規模言語モデル (dLLMs) は自己回帰モデルに代わる競合モデルとして登場した。
textbfSelf textbfSpeculative textbfDecoding (SSD) を提案する。
SSDは最大3.46$times$ Speedupを実現し、出力はLLaDAやDreamのようなオープンソースのモデルで段階的に復号化される。
論文 参考訳(メタデータ) (2025-10-05T10:52:28Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - Self-Training Elicits Concise Reasoning in Large Language Models [23.475414693530965]
チェーン・オブ・シント(CoT)推論により、中間トークンによるさらなる計算を大規模言語モデル(LLM)が利用できるようになった。
自己生成した簡潔な推論経路を利用する簡単な微調整法を提案する。
提案手法は,GSM8KおよびMATH上の5つのモデルファミリに対して,平均精度を維持しつつ,出力トークンの30%削減を実現する。
論文 参考訳(メタデータ) (2025-02-27T14:14:50Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。