Fugu-MT 論文翻訳(概要): Personalised Distillation: Empowering Open-Sourced LLMs with Adaptive Learning for Code Generation

論文の概要: Personalised Distillation: Empowering Open-Sourced LLMs with Adaptive Learning for Code Generation

arxiv url: http://arxiv.org/abs/2310.18628v2
Date: Fri, 26 Jan 2024 10:02:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 17:34:52.051745
Title: Personalised Distillation: Empowering Open-Sourced LLMs with Adaptive Learning for Code Generation
Title（参考訳）: パーソナライズド蒸留:コード生成のための適応学習によるオープンソースLLMの活用
Authors: Hailin Chen, Amrita Saha, Steven Hoi, Shafiq Joty
Abstract要約: 学生が最初に課題を解こうとすると、教師は生徒に適応的な改善を与える。コード生成では、パーソナライズド蒸留は、データの3分の1しか標準蒸留に勝っていない。データ収集コストが4～6ドルとなる2.5～3Kのパーソナライズされた例だけで、CodeGen-mono-16Bは7%向上して36.4%のpass@1、StarCoderは12.2%向上し、HumanEvalでは45.8%のpass@1を達成しています。
参考スコア（独自算出の注目度）: 31.40739015380123
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rise of powerful closed-sourced LLMs (ChatGPT, GPT-4), there are increasing interests in distilling the capabilies of close-sourced LLMs to smaller open-sourced LLMs. Previous distillation methods usually prompt ChatGPT to generate a set of instructions and answers, for the student model to learn. However, such standard distillation approach neglects the merits and conditions of the student model. Inspired by modern teaching principles, we design a personalised distillation process, in which the student attempts to solve a task first, then the teacher provides an adaptive refinement for the student to improve. Instead of feeding the student with teacher's prior, personalised distillation enables personalised learning for the student model, as it only learns on examples it makes mistakes upon and learns to improve its own solution. On code generation, personalised distillation consistently outperforms standard distillation with only one third of the data. With only 2.5-3K personalised examples that incur a data-collection cost of 4-6$, we boost CodeGen-mono-16B by 7% to achieve 36.4% pass@1 and StarCoder by 12.2% to achieve 45.8% pass@1 on HumanEval.
Abstract（参考訳）: 強力なオープンソース LLM (ChatGPT, GPT-4) の出現に伴い, オープンソース LLM のキャパビエをより小さな LLM に蒸留することへの関心が高まっている。従来の蒸留法は通常、ChatGPTが生徒モデルが学ぶための一連の指示と答えを生成するように促す。しかし、このような標準的な蒸留法は学生モデルの利点や条件を無視している。近代的指導原理に触発されて, 学生が最初に課題を解決しようとする個人化蒸留プロセスを設計し, 教師は生徒が改善するための適応的改良を提供する。教師の事前の指導を受ける代わりに、個人化された蒸留は生徒のモデルに対する個人的学習を可能にする。コード生成では、パーソナライズド蒸留は、データの3分の1しか標準蒸留に勝っていない。データ収集コストを4～6ドルとする2.5～3kの個人化例で、codegen-mono-16bを7%増やして36.4%pass@1、starcoderを12.2%増やし、humanevalで45.8%pass@1になります。

関連論文リスト

Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
この蒸留工程を使わずに, 一段階生成モデルを直接訓練できることが示される。本稿では, スコア推定に頼ることなく, 競争力のある結果が得られる蒸留法群を提案する。
論文参考訳（メタデータ） (2025-02-11T23:02:14Z)
SelfCodeAlign: Self-Alignment for Code Generation [15.23960029671979]
SelfCodeAlignは、自己整合型コード言語モデル(LLM)のための、初めて完全に透明で許容可能なパイプラインであるまず、高品質なシードスニペットから多様なコーディング概念を抽出し、新しいタスクを生成する。次に、タスク毎に複数のレスポンスをサンプリングし、それぞれがテストケースとペアリングし、サンドボックス環境で検証する。このデータセットの微調整は、HumanEval+で67.1パス@1を達成するモデルにつながります。
論文参考訳（メタデータ） (2024-10-31T17:55:13Z)
Pre-training Distillation for Large Language Models: A Design Space Exploration [54.67324039434781]
予習蒸留は、大きな教師モデルからより小さな学生モデルに知識を移すことを目的としている。我々は, プレトレーニング蒸留の設計空間を探索し, より良い構成を求める実験を行った。我々は, 設計分野の探究が, 予修蒸留の今後の実践に影響を及ぼすことを期待している。
論文参考訳（メタデータ） (2024-10-21T17:16:13Z)
Teaching-Assistant-in-the-Loop: Improving Knowledge Distillation from Imperfect Teacher Models in Low-Budget Scenarios [3.818273633647809]
3種類の信号型を利用した3成分フレームワークを提案する。最初の信号は学生の自己整合性(学生の複数の出力の整合性)であり、学生の自信の代用となる。提案した2段階フレームワークは,データセット間の信号を持たない微調整と比較して,20.79%の相対的な改善を実現している。
論文参考訳（メタデータ） (2024-06-08T02:17:43Z)
Distillation Matters: Empowering Sequential Recommenders to Match the Performance of Large Language Model [12.6937643116018]
大規模言語モデル(LLM)はレコメンデーションとして効果的に利用されており、優れたパフォーマンスを実現している。しかし、LLMの高推論遅延は、実用的デプロイメントを著しく制限する。本研究では,LLMに基づく推薦モデルから軽量シーケンシャルモデルへの知識蒸留について検討する。
論文参考訳（メタデータ） (2024-05-01T06:23:54Z)
GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation [21.56082253577229]
金はタスクに依存しないデータ生成および知識蒸留フレームワークである。 LLMには反復的なアウト・オブ・ディストリビューション誘導フィードバック機構が採用されている。ノイズ発生データを扱うためのエネルギーベースOOD評価手法も導入されている。
論文参考訳（メタデータ） (2024-03-28T18:08:22Z)
Multistage Collaborative Knowledge Distillation from a Large Language Model for Semi-Supervised Sequence Generation [60.657065293413716]
本研究は半教師付きシーケンス生成タスクについて検討し,いくつかのラベル付き例ではモデルを微調整するには不十分である。数発の試薬で抽出した学生モデルは、教師よりも一般的に一般化できるという発見を提示する。
論文参考訳（メタデータ） (2023-11-15T01:28:28Z)
Learning Lightweight Object Detectors via Multi-Teacher Progressive Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文参考訳（メタデータ） (2023-08-17T17:17:08Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文参考訳（メタデータ） (2022-11-27T05:14:03Z)
PROD: Progressive Distillation for Dense Retrieval [65.83300173604384]
良質な教師モデルでは,教師と生徒の間には不可解なギャップがあるため,蒸留によって悪い生徒が生まれることが一般的である。本稿では,高密度検索のためのプログレッシブ蒸留法であるPRDを提案する。
論文参考訳（メタデータ） (2022-09-27T12:40:29Z)
ERNIE-Tiny : A Progressive Distillation Framework for Pretrained Transformer Compression [20.23732233214849]
プレトレーニング言語モデル(PLM)を圧縮するための4段階進行蒸留フレームワークERNIE-Tinyを提案する。実験によると、4層のERNIE-TinyはGLUEベンチマークで12層のBERTベースの98.0%のパフォーマンスを維持している。 ERNIE-Tinyは、中国の5つのNLPタスクに対する新しい圧縮SOTAを達成し、BERTベースの精度を0.4%上回り、パラメータは7.5倍、推論速度は9.4倍向上した。
論文参考訳（メタデータ） (2021-06-04T04:00:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。