Fugu-MT 論文翻訳(概要): Smaller but Better: Self-Paced Knowledge Distillation for Lightweight yet Effective LCMs

論文の概要: Smaller but Better: Self-Paced Knowledge Distillation for Lightweight yet Effective LCMs

arxiv url: http://arxiv.org/abs/2408.03680v3
Date: Tue, 20 May 2025 15:04:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:51.241526
Title: Smaller but Better: Self-Paced Knowledge Distillation for Lightweight yet Effective LCMs
Title（参考訳）: 軽量で効果的なLCMのための自己ペースト知識蒸留法
Authors: Yujia Chen, Yang Ye, Zhongqi Li, Yuchi Ma, Cuiyun Gao,
Abstract要約: 知識蒸留(KD)は、より大規模で先進的なLCMのプログラミング能力をより小さく、より少ないLCMに転送する、有望なソリューションを提供する。我々は,軽量で効果的な学生用LCMを開発することを目的とした,SODA(Self-Paced knedge DistillAtion)フレームワークを提案する。 SodaCoderは軽量で効果的なLCMのシリーズで、16Bパラメータ以下で15のLCMを上回ります。
参考スコア（独自算出の注目度）: 11.118462543251303
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large code models (LCMs) have remarkably advanced the field of code generation. Despite their impressive capabilities, they still face practical deployment issues, such as high inference costs, limited accessibility of proprietary LCMs, and adaptability issues of ultra-large LCMs. These issues highlight the critical need for more accessible, lightweight yet effective LCMs. Knowledge distillation (KD) offers a promising solution, which transfers the programming capabilities of larger, advanced LCMs to smaller, less powerful LCMs. In this paper, we propose a novel Self-Paced knOwledge DistillAtion framework, named SODA, aiming at developing lightweight yet effective student LCMs. SODA consists of three stages in one cycle: (1) Correct-and-Fault Knowledge Delivery stage aims at improving the student models capability to recognize errors while ensuring its basic programming skill during the knowledge transferring, which involves correctness-aware supervised learning and fault-aware contrastive learning methods. (2) Multi-View Feedback stage aims at measuring the quality of results generated by the student model from two views, including model-based and static tool-based measurement, for identifying the difficult questions. (3) Feedback-based Knowledge Update stage aims at updating the student model adaptively by generating new questions at different difficulty levels, in which the difficulty levels are categorized based on the feedback in the second stage. Experimental results show that SODA improves the student model by 65.96% in terms of average Pass@1, outperforming the best baseline by 29.85%. Based on the SODA framework, we develop SodaCoder, a series of lightweight yet effective LCMs, which outperform 15 LCMs with less than or equal to 16B parameters. Notably, SodaCoder-DS-6.7B, built on DeepseekCoder-6.7B, even surpasses the prominent ChatGPT on average Pass@1.
Abstract（参考訳）: 大規模コードモデル(LCM)は、コード生成の分野を著しく進歩させてきた。優れた能力にもかかわらず、高い推論コスト、プロプライエタリなLCMのアクセシビリティの制限、超大型LCMの適応性の問題など、実用的なデプロイメント問題に直面している。これらの問題は、よりアクセスしやすく、軽量で効果的なLCMの必要性を浮き彫りにする。知識蒸留(KD)は、より大規模で先進的なLCMのプログラミング能力をより小さく、より少ないLCMに転送する、有望なソリューションを提供する。本稿では,軽量で効果的な学生用LCMを開発することを目的とした,SODA(Self-Paced knOwledge DistillAtion)フレームワークを提案する。 SODAは,1つのサイクルの3段階から構成される。(1) 誤り認識能力の向上,(2) 誤り認識能力の向上,(2) 知識伝達における基本的なプログラミングスキルの確保,(2) 誤り認識学習とフォールト・アウェア・コントラスト学習の手法。 2) モデルベース, 静的ツールベースの測定を含む2つの視点から, 学生モデルが生成した結果の質を評価することを目的としたマルチビューフィードバックステージ。 3) フィードバックに基づく知識更新段階は,第2段階のフィードバックに基づいて難易度を分類し,難易度を異なる難易度で新たな質問を生成することにより,学生モデルを適応的に更新することを目的としている。実験の結果、SODAは学生モデルを平均パス@1で65.96%改善し、最高のベースラインを29.85%上回った。 SodaCoderは軽量で効果的なLCMのシリーズで、16Bパラメータ以下で15のLCMを上回ります。注目すべきなのは、DeepseekCoder-6.7B上に構築されたSodaCoder-DS-6.7Bは、平均的なPass@1で著名なChatGPTを超えていることだ。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文参考訳（メタデータ） (2025-06-16T07:55:14Z)
Activation-Guided Consensus Merging for Large Language Models [25.68958388022476]
textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。 L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
論文参考訳（メタデータ） (2025-05-20T07:04:01Z)
LLM-driven Effective Knowledge Tracing by Integrating Dual-channel Difficulty [9.683271515093994]
本稿では,新しいDual-channel Difficulty-Aware Knowledge Tracing (DDKT) フレームワークを提案する。難易度測定のための難易度バイアス対応アルゴリズムと生徒の熟達アルゴリズムが組み込まれている。本枠組みでは,(1)困難バランス知覚系列(DBPS)-学生の主観的知覚と目的的難易度, LLM評価難易度, 数理統計的難易度, および学生の主観的認識の難易度を, (2)難易度比(DMR) - 難易度ゾーンによる生徒の熟達度を正確にモデル化すること,(3)知識状態更新機構 - ゲートによるパーソナライズされた知識獲得を実現すること,の3つを紹介している。
論文参考訳（メタデータ） (2025-02-27T09:36:27Z)
Speculate, then Collaborate: Fusing Knowledge of Language Models during Decoding [27.84669070734852]
大規模言語モデル(LLM)は、特定のドメインで優れていることが多いが、トレーニングの制限のため、他のドメインでは不足している。テスト時にLLM知識を効率的に融合できる新しいコラボレーティブ・スペキュレイティブ・デコーディング(CoSD)アルゴリズムを提案する。実験の結果,COSDは既存の手法と比較してベンチマークで最大10%精度が向上していることがわかった。
論文参考訳（メタデータ） (2025-02-11T23:40:53Z)
Should Code Models Learn Pedagogically? A Preliminary Evaluation of Curriculum Learning for Real-World Software Engineering Tasks [2.0072624123275533]
近年の研究では、合成コードの難易度に基づく漸進的な学習により、カリキュラム学習がコード関連タスクのパフォーマンスを向上させることが示されている。本稿では,コードクローン検出とコード要約のタスクを通じて,事前学習されたコードモデル(CodeT5)がCLの下でどのように学習されるかを検討する。 CodeXGLUEベンチマークに関する実証研究は、これまでの研究と対照的な結果を示し、そのモデルでは破滅的な忘れ込みとショートカット学習の兆候が見られた。
論文参考訳（メタデータ） (2025-02-06T06:33:08Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
DreamLCM: Towards High-Quality Text-to-3D Generation via Latent Consistency Model [77.84225358245487]
本稿では,LCM(Latent Consistency Model)を組み込んだDreamLCMを提案する。提案手法は, 対象3次元モデルの最適化のために, 高精度かつ詳細な勾配を与えることができる。 DreamLCMは、生成品質とトレーニング効率の両面で最先端の結果を達成する。
論文参考訳（メタデータ） (2024-08-06T06:59:15Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Learn it or Leave it: Module Composition and Pruning for Continual Learning [48.07144492109635]
MoCL-Pは知識統合と計算オーバーヘッドのバランスをとる軽量な連続学習手法である。評価の結果,MoCL-Pは最先端性能を実現し,パラメータ効率を最大3倍向上することがわかった。
論文参考訳（メタデータ） (2024-06-26T19:18:28Z)
CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。 CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文参考訳（メタデータ） (2024-03-13T08:54:31Z)
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文参考訳（メタデータ） (2024-03-13T05:38:39Z)
Compresso: Structured Pruning with Collaborative Prompting Learns Compact Large Language Models [15.471290825100075]
我々はCompressoと呼ばれる大規模言語モデルを構築するための新しいパラダイムを導入する。提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。実験では、Compressoは様々な空間比でワンショットプルーニングベースラインを著しく上回り、それぞれ2.21%、11.43%、7.04%、および4.81%のスコアをコモンセンス推論、読解理解、MMLU、BBHベンチマークで達成している。
論文参考訳（メタデータ） (2023-10-08T05:16:28Z)
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。 ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:59Z)
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文参考訳（メタデータ） (2023-06-05T23:32:26Z)
Knowledge Restore and Transfer for Multi-label Class-Incremental Learning [34.378828633726854]
マルチラベルクラス増分学習(MLCIL)のための知識復元・伝達(KRT)フレームワークを提案する。 KRTには、古いクラスの知識を復元するための動的擬似ラベル(DPL)モジュールと、セッション固有の知識を保存し、古いクラスの知識を新しいモデルに十分に転送するインクリメンタルなクロスアテンション(ICA)モジュールが含まれている。 MS-COCOとPASCALのVOCデータセットによる実験結果から,認識性能の向上と忘れの軽減を目的とした手法の有効性が示された。
論文参考訳（メタデータ） (2023-02-26T15:34:05Z)
NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。 NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文参考訳（メタデータ） (2022-11-15T18:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。