論文の概要: Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language
Models
- arxiv url: http://arxiv.org/abs/2112.07327v1
- Date: Tue, 14 Dec 2021 12:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 23:18:01.570027
- Title: Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language
Models
- Title(参考訳): 事前学習された言語モデルに対する不確実性認識知識の融合
- Authors: Lei Li, Yankai Lin, Xuancheng Ren, Guangxiang Zhao, Peng Li, Jie Zhou,
Xu Sun
- Abstract要約: PLMのための新しいモデル再利用パラダイムであるKnowledge Amalgamation(KA)を提案する。
KAは、人間のアノテーションを使用せずに、異なる分類問題に特化している異なる教師-PLMの知識を、汎用的な学生モデルにマージすることを目的としている。
実験の結果,MUKAはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。
- 参考スコア(独自算出の注目度): 37.88287077119201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As many fine-tuned pre-trained language models~(PLMs) with promising
performance are generously released, investigating better ways to reuse these
models is vital as it can greatly reduce the retraining computational cost and
the potential environmental side-effects. In this paper, we explore a novel
model reuse paradigm, Knowledge Amalgamation~(KA) for PLMs. Without human
annotations available, KA aims to merge the knowledge from different
teacher-PLMs, each of which specializes in a different classification problem,
into a versatile student model. The achieve this, we design a Model
Uncertainty--aware Knowledge Amalgamation~(MUKA) framework, which identifies
the potential adequate teacher using Monte-Carlo Dropout for approximating the
golden supervision to guide the student. Experimental results demonstrate that
MUKA achieves substantial improvements over baselines on benchmark datasets.
Further analysis shows that MUKA can generalize well under several complicate
settings with multiple teacher models, heterogeneous teachers, and even
cross-dataset teachers.
- Abstract(参考訳): 有望な性能を持つ多くの微調整事前学習言語モデル(plms)が寛大にリリースされているため、これらのモデルを再訓練する計算コストと潜在的な環境副作用を大幅に削減できるため、より良い再利用方法の検討は不可欠である。
本稿では,PLMのための新しいモデル再利用パラダイムであるKnowledge Amalgamation~(KA)について検討する。
KAは、人間のアノテーションを使用せずに、異なる分類問題に特化している異なる教師-PLMの知識を、汎用的な学生モデルにマージすることを目的としている。
そこで我々は,モンテカルロ・ドロップアウトを用いて,学生を指導するためのゴールデン・インスペクティブの近似を行う,モデル不確かさを意識した知識の融合(MUKA)フレームワークを設計する。
実験の結果,MUKAはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。
さらに分析したところ、MUKAは複数の教師モデル、異質な教師、さらにはクロスデータセットの教師との複雑な設定の下でうまく一般化できることがわかった。
関連論文リスト
- A Probabilistic Fluctuation based Membership Inference Attack for
Diffusion Models [33.77030569632993]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングセットに、モデルをクエリすることでレコードが存在するかどうかを特定する。
PFAMI(Probabilistic Fluctuation Assessing Membership Inference Attack)を提案する。
PFAMIは最高のベースラインと比較して攻撃成功率(ASR)を約27.9%向上させることができる。
論文 参考訳(メタデータ) (2023-08-23T14:00:58Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - KDSM: An uplift modeling framework based on knowledge distillation and
sample matching [2.036924568983982]
昇降モデリングは、個人に対する治療効果を推定することを目的としている。
木に基づく手法は増分と一般化に適しており、ニューラルネットベースのモデルは絶対値と精度の予測に優れている。
本稿では,知識蒸留とサンプルマッチング(KDSM)に基づくアップリフトモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T09:15:28Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models [55.137869702763375]
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。
次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
論文 参考訳(メタデータ) (2022-10-11T07:59:08Z) - Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文 参考訳(メタデータ) (2021-12-30T14:19:27Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Improving the Reconstruction of Disentangled Representation Learners via
Multi-Stage Modelling [36.511724015405036]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
モデルが相関変数を学習するのに十分な能力を持っていないため,不整合表現学習と再構成品質のトレードオフがもたらされる。
本稿では,既存の不整合表現学習手法を用いて,非整合因子をまず学習する,新しい多段階モデリング手法を提案する。
提案するマルチステージモデルは,複数の標準ベンチマークにおいて等価なアンタングル性能を有する現在の最先端手法よりも,はるかに高い再現性を有することを示す。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。