論文の概要: In-Context Learning Distillation for Efficient Few-Shot Fine-Tuning
- arxiv url: http://arxiv.org/abs/2412.13243v1
- Date: Tue, 17 Dec 2024 18:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:55.191535
- Title: In-Context Learning Distillation for Efficient Few-Shot Fine-Tuning
- Title(参考訳): フルショットファインチューニングのためのインテクスト学習蒸留法
- Authors: Yifei Duan, Liu Li, Zirui Zhai, Jinxia Yao,
- Abstract要約: 自然言語推論タスクに対して,OPT-1.3Bモデルに数発のインコンテキスト学習を適用した。
我々は,知識蒸留を用いて文脈情報を内部化し,モデルパラメータを1.3Bから125Mに減らし,2.5GBから0.25GBに縮小した。
- 参考スコア(独自算出の注目度): 2.008107454315891
- License:
- Abstract: We applied few-shot in-context learning on the OPT-1.3B model for the natural language inference task and employed knowledge distillation to internalize the context information, reducing model parameter from 1.3B to 125M and achieving a size reduction from 2.5GB to 0.25GB. Compared to using in-context learning alone on similarly sized models, this context distillation approach achieved a nearly 50% improvement in out-of-domain accuracy, demonstrating superior knowledge transfer capabilities over prompt-based methods. Furthermore, this approach reduced memory consumption by up to 60% while delivering a 20% improvement in out-of-domain accuracy compared to conventional pattern-based fine-tuning.
- Abstract(参考訳): 自然言語推論タスクにOPT-1.3Bモデルを用いて,文脈情報を内部化し,モデルパラメータを1.3Bから125Mに減らし,2.5GBから0.25GBに縮小した。
同様の大きさのモデルでコンテキスト内学習のみを用いることと比較して、この文脈蒸留法は領域外精度を50%近く改善し、プロンプトベースの手法よりも優れた知識伝達能力を示した。
さらに、従来のパターンベースファインチューニングと比較して、領域外精度を20%向上させながら、メモリ消費を最大60%削減する。
関連論文リスト
- Knowledge Distillation Using Frontier Open-source LLMs: Generalizability and the Role of Synthetic Data [0.01884913108327873]
大規模なオープンソース言語モデル(LLM)は、より小さなLLMよりも推論コストとレイテンシが高い。
知識蒸留は、これらの大規模で有能な教師モデルからの出力を使用して、より小さな学生モデルを訓練する方法を提供する。
Llama-3.1-405B-インストラクタとLlama-3.1-8B-インストラクタとLlama-3.1-70B-インストラクタを用いた蒸留の有効性を検討した。
論文 参考訳(メタデータ) (2024-10-24T09:37:23Z) - ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler [1.9015367254988451]
本研究では、インテント分類(IC)とスロットフィリング(SF)のための人気のあるベンチマークデータセット上で、命令調整モデル(インストラクション-LLM)を評価する。
Instruct-LLM の言語生成タスクとして IC と SF をフレーミングする ILLUMINER を導入する。
FLAN-T5 11Bモデルを用いた複数のベースラインとの総合的な比較から,本手法は最先端のジョイントIC+SF法やGPT3.5 (175B) を用いたテキスト内学習よりも優れていた。
論文 参考訳(メタデータ) (2024-03-26T09:41:21Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Two-Step Knowledge Distillation for Tiny Speech Enhancement [3.6115850941111964]
小型音声強調モデル蒸留のための新しい2段階手法を提案する。
加重混合蒸留と教師付き損失の標準的なアプローチとは対照的に,我々は知識蒸留の目的のみを用いて,学生を事前訓練する。
また,学生の運動内グラム行列を教師のものと一致させることを目的とした,詳細な類似性保存KD損失を新たに提案する。
論文 参考訳(メタデータ) (2023-09-15T04:19:38Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - Boosting Contrastive Learning with Relation Knowledge Distillation [12.14219750487548]
関係知識蒸留 (Relation Knowledge Distillation, ReKD) を用いた関係性に関するコントラストパラダイムを提案する。
提案手法は,複数の軽量モデルにおいて大幅な改善を実現することを示す。
論文 参考訳(メタデータ) (2021-12-08T08:49:18Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Extracurricular Learning: Knowledge Transfer Beyond Empirical
Distribution [17.996541285382463]
本稿では,圧縮された学生モデルと教師とのギャップを埋めるために,課外学習を提案する。
回帰と分類のタスクについて厳密な評価を行い、標準的な知識蒸留と比較すると、課外学習はギャップを46%減らして68%減らすことを示した。
これは、最近のニューラルネットワークアーキテクチャに対する経験的リスク最小化に基づくトレーニングと比較して、大幅な精度向上につながる。
論文 参考訳(メタデータ) (2020-06-30T18:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。