論文の概要: Task-agnostic Distillation of Encoder-Decoder Language Models
- arxiv url: http://arxiv.org/abs/2305.12330v1
- Date: Sun, 21 May 2023 03:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 21:10:35.741052
- Title: Task-agnostic Distillation of Encoder-Decoder Language Models
- Title(参考訳): エンコーダ・デコーダ言語モデルのタスク非依存蒸留
- Authors: Chen Zhang, Yang Yang, Jingang Wang, Dawei Song
- Abstract要約: MiniEnDはエンコーダ・デコーダ言語モデルのタスク非依存蒸留法である。
我々は,MiniEnDは一般的に有効であり,他の選択肢と比較して競争力があることを示す。
- 参考スコア(独自算出の注目度): 14.771020407149908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuning pretrained language models (LMs) have enabled appealing
performance on a diverse array of tasks. The intriguing task-agnostic property
has driven a shifted focus from task-specific to task-agnostic distillation of
LMs. While task-agnostic, compute-efficient, performance-preserved LMs can be
yielded by task-agnostic distillation, previous studies mainly sit in
distillation of either encoder-only LMs (e.g., BERT) or decoder-only ones
(e.g., GPT) yet largely neglect that distillation of encoder-decoder LMs (e.g.,
T5) can posit very distinguished behaviors. Frustratingly, we discover that
existing task-agnostic distillation methods can fail to handle the distillation
of encoder-decoder LMs. To the demand, we explore a few paths and uncover a
path named as MiniEnD that successfully tackles the distillation of
encoder-decoder LMs in a task-agnostic fashion. We examine MiniEnD on language
understanding and abstractive summarization. The results showcase that MiniEnD
is generally effective and is competitive compared to other alternatives. We
further scale MiniEnD up to distillation of 3B encoder-decoder language models
with interpolated distillation. The results imply the opportunities and
challenges in distilling large language models (e.g., LLaMA).
- Abstract(参考訳): 微調整事前学習言語モデル(lms)は様々なタスクで魅力的なパフォーマンスを実現している。
興味深いタスク非依存性は、タスク特化蒸留からタスク非依存蒸留へと焦点を移した。
タスク非依存、計算効率、性能保存のLMはタスク非依存の蒸留によって得られるが、従来の研究は主にエンコーダのみのLM(例えばBERT)またはデコーダのみのLM(例えばGPT)の蒸留に費やされている。
既存のタスク非依存蒸留法では,エンコーダ・デコーダLMの蒸留処理に失敗する可能性がある。
そこで,本研究では,エンコーダ・デコーダ LM の蒸留にタスク非依存でうまく取り組み,MiniEnD という名前の経路を探索する。
言語理解と抽象要約について考察する。
結果は、MiniEnDは一般的に有効であり、他の選択肢と比較して競争力があることを示している。
補間蒸留による3Bエンコーダ・デコーダ言語モデルの蒸留までMiniEnDを拡大する。
結果は、大きな言語モデル(例えば、llama)を蒸留する機会と課題を示している。
関連論文リスト
- FADE: A Task-Agnostic Upsampling Operator for Encoder-Decoder Architectures [18.17019371324024]
FADEは、新しくて、プラグアンドプレイで、軽量で、タスクに依存しないアップサンプリングオペレータである。
FADEはタスク非依存であり,多くの密集予測タスクにおいて一貫した性能向上を示す。
リージョンとディテールに敏感なタスクの両方で,ロバストな機能アップサンプリングを初めて実施しました。
論文 参考訳(メタデータ) (2024-07-18T13:32:36Z) - D2LLM: Decomposed and Distilled Large Language Models for Semantic Search [18.63768158439252]
D2LLMs-Decomposed and Distilled LLMs for semantic search。
クロスエンコーダを効率的なバイエンコーダに分解し,マルチヘッド・アテンションとインタラクション・エミュレーション・モジュールによるポーリングと統合する。
実験の結果,D2LLMは3つのタスクにまたがるすべての指標において,主要なベースラインを5つ超えていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T04:03:04Z) - Transcoders Find Interpretable LLM Feature Circuits [1.4254279830438588]
サブレイヤを通して回路解析を行うためにトランスコーダを用いる新しい手法を提案する。
120M, 410M, 1.4Bパラメータを持つ言語モデル上でトランスコーダを訓練し, 疎さ, 忠実さ, 人間の解釈可能性の観点から, 少なくともSAEに匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-06-17T17:49:00Z) - A Systematic Investigation of Distilling Large Language Models into Cross-Encoders for Passage Re-ranking [79.35822270532948]
大規模言語モデル (LLM) から蒸留したクロスエンコーダは、手動でラベル付けされたデータに微調整されたクロスエンコーダよりも効果的であることが多い。
我々は新しい蒸留データセットである Rank-DistiLLM を構築し,リリースする。
論文 参考訳(メタデータ) (2024-05-13T16:51:53Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - MEND: Meta dEmonstratioN Distillation for Efficient and Effective
In-Context Learning [9.271196993624944]
大規模言語モデル(LLM)は、与えられたテスト入力と少数のインプット・アウトプットペア(デモ)を同時に予測する。
既存の解は、長い実演をコンパクトなベクトルに蒸留しようとする。
本稿では,メタdEmonstratioN蒸留(MEND)について述べる。そこでは,言語モデルが,新しい下流タスクを再学習することなく,任意の長い実演をベクトルに蒸留することを学ぶ。
論文 参考訳(メタデータ) (2024-03-11T17:03:04Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning [20.59775450213501]
本稿では, 蒸留データの誤りを抑えるための推論プログラムを導入したPaD(Program-Aided Distillation)を提案する。
算術的推論,記号的推論,一般能力に基づいてPaDを評価する。
論文 参考訳(メタデータ) (2023-05-23T10:11:56Z) - Generic-to-Specific Distillation of Masked Autoencoders [119.21281960831651]
マスク付きオートエンコーダによって事前訓練された大型モデルの監督下で, 小型ViTモデルのポテンシャルを活かすため, 汎用型蒸留法(G2SD)を提案する。
G2SDでは、バニラViT-Smallモデルは98.7%、98.1%、99.3%のパフォーマンスを画像分類、オブジェクト検出、セマンティックセグメンテーションのために達成している。
論文 参考訳(メタデータ) (2023-02-28T17:13:14Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。