論文の概要: Iterative Knowledge Distillation through Feedback-Driven Learning Cycles
- arxiv url: http://arxiv.org/abs/2408.03680v1
- Date: Wed, 7 Aug 2024 10:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:14:23.113597
- Title: Iterative Knowledge Distillation through Feedback-Driven Learning Cycles
- Title(参考訳): フィードバック駆動学習サイクルによる反復的知識蒸留
- Authors: Yujia Chen, Yang Ye, Zhongqi Li, Yuchi Ma, Cuiyun Gao,
- Abstract要約: IterKDは、大規模で先進的なLCMのプログラミング能力を、より小さく、より少ないLCMに継続的に移行することを目的としている。
IterCoderは軽量だが効果的なLCMであり、CodeLlama-7B上に構築されている。
IterCoderは、HumanEvalベンチマークでPass@1スコア65.2を獲得し、30B以上のLCMを平均47.51%上回り、118.47%のLCMを平均118.47%上回る。
- 参考スコア(独自算出の注目度): 11.118462543251303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large code models (LCMs) have remarkably advanced the field of code intelligence. Despite their impressive capabilities, they still face practical employment challenges, such as high costs, limited accessibility of proprietary LCMs, and adaptability issues of ultra-large LCMs. These challenges highlight the critical need for more accessible, lightweight yet effective LCMs. In this paper, we propose IterKD, an Iter Knowledge Distillation framework, which aims at continually transferring the programming capabilities of larger, advanced LCMs (Teacher) to smaller, less powerful LCMs (Student). IterKD consists of three stages in one cycle: (1) Correct-and-Fault Knowledge Delivery stage aims at improving the student models capability to recognize errors while ensuring its basic programming skill during the knowledge transferring, which involves correctness-aware supervised learning and fault-aware contrastive learning methods. (2) Multi-view Feedback stage aims at measuring the quality of results generated by the student model from two views, including model-based and static tool-based measurement; (3) Feedback-based Knowledge Update stage aims at updating the student model adaptively by generating new questions at different difficulty levels, in which the difficulty levels are categorized based on the feedback in the last stage. By performing the training cycle iteratively, the student model is continuously refined through learning more advanced programming skills from the teacher model. Finally, based on the proposed IterKD framework, we develop a lightweight yet effective LCM, named IterCoder, which is built upon CodeLlama-7B. Experimental results show that IterCoder achieves a Pass@1 score of 65.2 on the HumanEval benchmark, outperforming over-30B-sized LCMs by an average of 47.51% and surpassing comparable-sized LCMs by an average of 118.47%.
- Abstract(参考訳): 大規模コードモデル(LCM)は、コードインテリジェンス分野を著しく進歩させた。
優れた能力にもかかわらず、高コスト、プロプライエタリ LCM のアクセシビリティの制限、超大型 LCM の適応性の問題など、実用上の課題に直面している。
これらの課題は、よりアクセシブルで軽量で効果的なLCMに対する重要なニーズを浮き彫りにする。
本稿では,より大規模で先進的なLCM(Teacher)のプログラミング能力を,より小型で低パワーなLCM(Student)に継続的に移行することを目的とした,Iter Knowledge DistillationフレームワークのIterKDを提案する。
IterKDは,1つのサイクルの3つの段階から構成される。(1) 誤りの認識能力を向上させること,(2) 知識伝達において基本的なプログラミングスキルを確保しながら,誤りの認識能力を向上させること。
2) モデルベースと静的ツールベースの測定を含む2つの視点から,学生モデルが生み出した結果の質を評価することを目的とした多視点フィードバックステージ,(3) フィードバックベースの知識更新ステージは,最終段階のフィードバックに基づいて難易度を分類する難易度を,新たな質問を発生させることにより,生徒モデルを適応的に更新することを目的とした。
トレーニングサイクルを反復的に実行することにより、教師モデルからより高度なプログラミングスキルを学ぶことにより、学生モデルを継続的に洗練する。
最後に、提案したIterKDフレームワークに基づいて、CodeLlama-7B上に構築された軽量で効果的なLCMであるIterCoderを開発した。
実験の結果、IterCoderはHumanEvalベンチマークでPass@1スコア65.2を獲得し、30B以上のLCMを平均47.51%上回り、118.47%のLCMを平均118.47%上回る結果となった。
関連論文リスト
- CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Learn it or Leave it: Module Composition and Pruning for Continual Learning [48.07144492109635]
MoCL-Pは知識統合と計算オーバーヘッドのバランスをとる軽量な連続学習手法である。
評価の結果,MoCL-Pは最先端性能を実現し,パラメータ効率を最大3倍向上することがわかった。
論文 参考訳(メタデータ) (2024-06-26T19:18:28Z) - CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z) - LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。
宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。
我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-06-05T23:32:26Z) - Knowledge Restore and Transfer for Multi-label Class-Incremental
Learning [34.378828633726854]
マルチラベルクラス増分学習(MLCIL)のための知識復元・伝達(KRT)フレームワークを提案する。
KRTには、古いクラスの知識を復元するための動的擬似ラベル(DPL)モジュールと、セッション固有の知識を保存し、古いクラスの知識を新しいモデルに十分に転送するインクリメンタルなクロスアテンション(ICA)モジュールが含まれている。
MS-COCOとPASCALのVOCデータセットによる実験結果から,認識性能の向上と忘れの軽減を目的とした手法の有効性が示された。
論文 参考訳(メタデータ) (2023-02-26T15:34:05Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。