論文の概要: Task-agnostic Distillation of Encoder-Decoder Language Models
- arxiv url: http://arxiv.org/abs/2305.12330v1
- Date: Sun, 21 May 2023 03:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 21:10:35.741052
- Title: Task-agnostic Distillation of Encoder-Decoder Language Models
- Title(参考訳): エンコーダ・デコーダ言語モデルのタスク非依存蒸留
- Authors: Chen Zhang, Yang Yang, Jingang Wang, Dawei Song
- Abstract要約: MiniEnDはエンコーダ・デコーダ言語モデルのタスク非依存蒸留法である。
我々は,MiniEnDは一般的に有効であり,他の選択肢と比較して競争力があることを示す。
- 参考スコア(独自算出の注目度): 14.771020407149908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuning pretrained language models (LMs) have enabled appealing
performance on a diverse array of tasks. The intriguing task-agnostic property
has driven a shifted focus from task-specific to task-agnostic distillation of
LMs. While task-agnostic, compute-efficient, performance-preserved LMs can be
yielded by task-agnostic distillation, previous studies mainly sit in
distillation of either encoder-only LMs (e.g., BERT) or decoder-only ones
(e.g., GPT) yet largely neglect that distillation of encoder-decoder LMs (e.g.,
T5) can posit very distinguished behaviors. Frustratingly, we discover that
existing task-agnostic distillation methods can fail to handle the distillation
of encoder-decoder LMs. To the demand, we explore a few paths and uncover a
path named as MiniEnD that successfully tackles the distillation of
encoder-decoder LMs in a task-agnostic fashion. We examine MiniEnD on language
understanding and abstractive summarization. The results showcase that MiniEnD
is generally effective and is competitive compared to other alternatives. We
further scale MiniEnD up to distillation of 3B encoder-decoder language models
with interpolated distillation. The results imply the opportunities and
challenges in distilling large language models (e.g., LLaMA).
- Abstract(参考訳): 微調整事前学習言語モデル(lms)は様々なタスクで魅力的なパフォーマンスを実現している。
興味深いタスク非依存性は、タスク特化蒸留からタスク非依存蒸留へと焦点を移した。
タスク非依存、計算効率、性能保存のLMはタスク非依存の蒸留によって得られるが、従来の研究は主にエンコーダのみのLM(例えばBERT)またはデコーダのみのLM(例えばGPT)の蒸留に費やされている。
既存のタスク非依存蒸留法では,エンコーダ・デコーダLMの蒸留処理に失敗する可能性がある。
そこで,本研究では,エンコーダ・デコーダ LM の蒸留にタスク非依存でうまく取り組み,MiniEnD という名前の経路を探索する。
言語理解と抽象要約について考察する。
結果は、MiniEnDは一般的に有効であり、他の選択肢と比較して競争力があることを示している。
補間蒸留による3Bエンコーダ・デコーダ言語モデルの蒸留までMiniEnDを拡大する。
結果は、大きな言語モデル(例えば、llama)を蒸留する機会と課題を示している。
関連論文リスト
- Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - MEND: Meta dEmonstratioN Distillation for Efficient and Effective
In-Context Learning [9.271196993624944]
大規模言語モデル(LLM)は、与えられたテスト入力と少数のインプット・アウトプットペア(デモ)を同時に予測する。
既存の解は、長い実演をコンパクトなベクトルに蒸留しようとする。
本稿では,メタdEmonstratioN蒸留(MEND)について述べる。そこでは,言語モデルが,新しい下流タスクを再学習することなく,任意の長い実演をベクトルに蒸留することを学ぶ。
論文 参考訳(メタデータ) (2024-03-11T17:03:04Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning [20.59775450213501]
本稿では, 蒸留データの誤りを抑えるための推論プログラムを導入したPaD(Program-Aided Distillation)を提案する。
算術的推論,記号的推論,一般能力に基づいてPaDを評価する。
論文 参考訳(メタデータ) (2023-05-23T10:11:56Z) - Generic-to-Specific Distillation of Masked Autoencoders [119.21281960831651]
マスク付きオートエンコーダによって事前訓練された大型モデルの監督下で, 小型ViTモデルのポテンシャルを活かすため, 汎用型蒸留法(G2SD)を提案する。
G2SDでは、バニラViT-Smallモデルは98.7%、98.1%、99.3%のパフォーマンスを画像分類、オブジェクト検出、セマンティックセグメンテーションのために達成している。
論文 参考訳(メタデータ) (2023-02-28T17:13:14Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z) - Safe Multi-Task Learning [3.508126539399186]
我々は,すべてのタスク,プライベートエンコーダ,ゲート,プライベートデコーダによって共有される公開エンコーダで構成される,安全なマルチタスク学習(SMTL)モデルを提案する。
推論段階での保存コストを低減するため,公開エンコーダと対応するプライベートエンコーダのいずれかを選択することができるSMTLのライトバージョンが提案されている。
論文 参考訳(メタデータ) (2021-11-20T14:21:02Z) - Modeling Accurate Human Activity Recognition for Embedded Devices Using
Multi-level Distillation [5.746224188845082]
IMUセンサに基づくヒューマンアクティビティ認識(HAR)はユビキタスコンピューティングにおいて欠かせない領域である。
組込みデバイスをネイティブにサポートした深部畳み込み型HARモデルを構築するために,多層蒸留を用いたプラグアンドプレイHARモデリングパイプラインを提案する。
SMLDistによって構築されたMobileNet V3モデルを用いて,様々な最先端HARフレームワークの組込みプラットフォームにおける精度,F1マクロスコア,エネルギーコストを比較した。
論文 参考訳(メタデータ) (2021-07-06T09:01:41Z) - CoDERT: Distilling Encoder Representations with Co-learning for
Transducer-based Speech Recognition [14.07385381963374]
トランスデューサのエンコーダ出力は自然に高いエントロピーを持ち、音響的に類似した単語-ピースの混同に関する豊富な情報を含んでいることを示す。
本稿では,教師のトランスデューサのエンコーダのロジットを蒸留するための補助的損失を導入し,このエンコーダ蒸留が効果的に機能するトレーニング戦略を探る。
論文 参考訳(メタデータ) (2021-06-14T20:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。