Fugu-MT 論文翻訳(概要): Are Intermediate Layers and Labels Really Necessary? A General Language Model Distillation Method

論文の概要: Are Intermediate Layers and Labels Really Necessary? A General Language Model Distillation Method

arxiv url: http://arxiv.org/abs/2306.06625v1
Date: Sun, 11 Jun 2023 08:53:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 17:47:32.068414
Title: Are Intermediate Layers and Labels Really Necessary? A General Language Model Distillation Method
Title（参考訳）: 中間層とラベルは本当に必要か? 一般言語モデル蒸留法
Authors: Shicheng Tan, Weng Lam Tam, Yuanchun Wang, Wenwen Gong, Shu Zhao, Peng Zhang, Jie Tang
Abstract要約: 本稿では,2段階の単語予測蒸留と語彙圧縮を行う汎用言語モデル蒸留(GLMD)手法を提案する。実験の結果,提案手法はSuperGLUEベンチマークで25の最先端手法より優れており,最良手法を3%上回る平均スコアが得られた。
参考スコア（独自算出の注目度）: 14.423829182894345
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The large scale of pre-trained language models poses a challenge for their deployment on various devices, with a growing emphasis on methods to compress these models, particularly knowledge distillation. However, current knowledge distillation methods rely on the model's intermediate layer features and the golden labels (also called hard labels), which usually require aligned model architecture and enough labeled data respectively. Moreover, the parameters of vocabulary are usually neglected in existing methods. To address these problems, we propose a general language model distillation (GLMD) method that performs two-stage word prediction distillation and vocabulary compression, which is simple and surprisingly shows extremely strong performance. Specifically, GLMD supports more general application scenarios by eliminating the constraints of dimension and structure between models and the need for labeled datasets through the absence of intermediate layers and golden labels. Meanwhile, based on the long-tailed distribution of word frequencies in the data, GLMD designs a strategy of vocabulary compression through decreasing vocabulary size instead of dimensionality. Experimental results show that our method outperforms 25 state-of-the-art methods on the SuperGLUE benchmark, achieving an average score that surpasses the best method by 3%.
Abstract（参考訳）: 事前訓練された言語モデルの大規模化は、これらのモデルを圧縮する方法、特に知識蒸留に重点を置いて、様々なデバイスに展開する上での課題となっている。しかし、現在の知識蒸留法はモデル中間層の特徴とゴールデンラベル(ハードラベルとも呼ばれる)に依存しており、それぞれ整列モデルアーキテクチャと十分なラベル付きデータを必要とする。さらに、語彙のパラメータは通常既存の方法で無視される。これらの問題に対処するために,2段階の単語予測蒸留と語彙圧縮を行う汎用言語モデル蒸留(GLMD)手法を提案する。特にglmdは、中間層とゴールデンラベルの欠如によって、モデル間の次元と構造の制約とラベル付きデータセットの必要性を排除することで、より一般的なアプリケーションシナリオをサポートする。一方、データ中の単語頻度の長い分布に基づいて、GLMDは次元ではなく語彙サイズを小さくすることで語彙圧縮の戦略を設計する。実験の結果,提案手法はSuperGLUEベンチマークで25の最先端手法より優れており,最良手法を3%上回る平均スコアが得られた。

関連論文リスト

Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文参考訳（メタデータ） (2025-02-19T12:07:53Z)
Uniform Discretized Integrated Gradients: An effective attribution based method for explaining large language models [0.0]
統合グラディエンス(Integrated Gradients)は、ディープラーニングモデルを説明するテクニックとしてよく知られている。本稿では,UDIG(Uniform Discretized Integrated Gradients)と呼ばれる手法を提案する。本手法は,2種類のNLPタスクに対して,3つのメトリクスビズログオッズ,包括性,十分性に対する感性分類と質問応答について検討した。
論文参考訳（メタデータ） (2024-12-05T05:39:03Z)
CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文参考訳（メタデータ） (2024-07-30T17:57:32Z)
Fuzzy Fingerprinting Transformer Language-Models for Emotion Recognition in Conversations [0.7874708385247353]
会話における感情認識(ERC)を実現するための2つのアプローチを組み合わせることを提案する。我々は,事前に訓練したRoBERTaに発話と以前の会話のターンを供給し,文脈的埋め込み発話表現を得る。広く使われているDailyDialog ERCベンチマークデータセットに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-09-08T12:26:01Z)
Compressing Sentence Representation with maximum Coding Rate Reduction [0.0]
ほとんどの自然言語推論問題では、文表現は意味検索タスクに必要である。スペースとハードウェアの制限のため、より小さなモデルを使用する場合には、同等の結果を得る必要がある。複雑性と文埋め込みサイズを低減した新しい言語モデルは,セマンティック検索ベンチマークにおいて同等の結果が得られることを実証した。
論文参考訳（メタデータ） (2023-04-25T09:23:43Z)
LEAD: Liberal Feature-based Distillation for Dense Retrieval [67.48820723639601]
知識蒸留は、強い教師モデルから比較的弱い学生モデルに知識を伝達するためにしばしば用いられる。従来のメソッドにはレスポンスベースのメソッドとフィーチャーベースのメソッドが含まれる。本稿では,リベラルな特徴量に基づく蒸留法(LEAD)を提案する。
論文参考訳（メタデータ） (2022-12-10T06:30:54Z)
LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文参考訳（メタデータ） (2022-10-14T19:13:36Z)
Knowledge Distillation of Russian Language Models with Reduction of Vocabulary [0.1092387707389144]
トランスフォーマー言語モデルは、自然言語処理タスクの大部分のコアコンポーネントとして機能する。この分野の既存の手法は主に、埋め込み/隠された表現の層数や次元を減らすことに焦点を当てている。語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。
論文参考訳（メタデータ） (2022-05-04T21:56:57Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
Are We Really Making Much Progress in Text Classification? A Comparative Review [5.33235750734179]
我々は、よく知られたデータセットにまたがって、シングルラベルとマルチラベルのテキスト分類のための様々な手法を解析する。我々は、教師付きタスクの生成モデルよりも、BERTのような差別的言語モデルの方が優れていることを強調する。
論文参考訳（メタデータ） (2022-04-08T09:28:20Z)
Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文参考訳（メタデータ） (2021-10-04T08:51:36Z)
Contrastive Distillation on Intermediate Representations for Language Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。 CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文参考訳（メタデータ） (2020-09-29T17:31:43Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。