Fugu-MT 論文翻訳(概要): Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language Models

論文の概要: Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language Models

arxiv url: http://arxiv.org/abs/2112.07327v1
Date: Tue, 14 Dec 2021 12:26:24 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-15 23:18:01.570027
Title: Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language Models
Title（参考訳）: 事前学習された言語モデルに対する不確実性認識知識の融合
Authors: Lei Li, Yankai Lin, Xuancheng Ren, Guangxiang Zhao, Peng Li, Jie Zhou, Xu Sun
Abstract要約: PLMのための新しいモデル再利用パラダイムであるKnowledge Amalgamation(KA)を提案する。 KAは、人間のアノテーションを使用せずに、異なる分類問題に特化している異なる教師-PLMの知識を、汎用的な学生モデルにマージすることを目的としている。実験の結果,MUKAはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。
参考スコア（独自算出の注目度）: 37.88287077119201
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As many fine-tuned pre-trained language models~(PLMs) with promising performance are generously released, investigating better ways to reuse these models is vital as it can greatly reduce the retraining computational cost and the potential environmental side-effects. In this paper, we explore a novel model reuse paradigm, Knowledge Amalgamation~(KA) for PLMs. Without human annotations available, KA aims to merge the knowledge from different teacher-PLMs, each of which specializes in a different classification problem, into a versatile student model. The achieve this, we design a Model Uncertainty--aware Knowledge Amalgamation~(MUKA) framework, which identifies the potential adequate teacher using Monte-Carlo Dropout for approximating the golden supervision to guide the student. Experimental results demonstrate that MUKA achieves substantial improvements over baselines on benchmark datasets. Further analysis shows that MUKA can generalize well under several complicate settings with multiple teacher models, heterogeneous teachers, and even cross-dataset teachers.
Abstract（参考訳）: 有望な性能を持つ多くの微調整事前学習言語モデル(plms)が寛大にリリースされているため、これらのモデルを再訓練する計算コストと潜在的な環境副作用を大幅に削減できるため、より良い再利用方法の検討は不可欠である。本稿では,PLMのための新しいモデル再利用パラダイムであるKnowledge Amalgamation~(KA)について検討する。 KAは、人間のアノテーションを使用せずに、異なる分類問題に特化している異なる教師-PLMの知識を、汎用的な学生モデルにマージすることを目的としている。そこで我々は,モンテカルロ・ドロップアウトを用いて,学生を指導するためのゴールデン・インスペクティブの近似を行う,モデル不確かさを意識した知識の融合(MUKA)フレームワークを設計する。実験の結果,MUKAはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。さらに分析したところ、MUKAは複数の教師モデル、異質な教師、さらにはクロスデータセットの教師との複雑な設定の下でうまく一般化できることがわかった。

関連論文リスト

CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation [57.91828170220308]
本稿では,大規模視覚基盤モデル(LVFM)を効果的に活用し,エッジモデルの性能を向上させる知識蒸留手法であるCustomKDを提案する。我々のシンプルで効果的なCustomKDは、LVFMに固有のよく一般化された特徴を、モデルの違いを減らすために、与えられた学生モデルにカスタマイズする。
論文参考訳（メタデータ） (2025-03-23T23:53:08Z)
RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文参考訳（メタデータ） (2024-12-10T17:06:41Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文参考訳（メタデータ） (2024-08-22T12:04:04Z)
Efficient Multi-Model Fusion with Adversarial Complementary Representation Learning [26.393644289860084]
単一モデルシステムは、話者検証(SV)や画像分類といったタスクにおいて、しばしば欠陥に悩まされる。本稿では、新たに訓練されたモデルが以前取得した知識を回避できる逆相補表現学習(ACoRL)フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-24T07:47:55Z)
Curriculum-scheduled Knowledge Distillation from Multiple Pre-trained Teachers for Multi-domain Sequential Recommendation [102.91236882045021]
現実世界のシステムにおいて、様々な事前学習されたレコメンデーションモデルを効率的に利用する方法について検討することが不可欠である。多分野連続的な推薦のために,複数の事前学習教師によるカリキュラムスケジューリング型知識蒸留を提案する。 CKD-MDSRは、複数の教師モデルとして異なるPRMの利点を最大限に活用し、小学生推薦モデルを強化している。
論文参考訳（メタデータ） (2024-01-01T15:57:15Z)
ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。 ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文参考訳（メタデータ） (2023-08-17T19:12:13Z)
KDSM: An uplift modeling framework based on knowledge distillation and sample matching [2.036924568983982]
昇降モデリングは、個人に対する治療効果を推定することを目的としている。木に基づく手法は増分と一般化に適しており、ニューラルネットベースのモデルは絶対値と精度の予測に優れている。本稿では,知識蒸留とサンプルマッチング(KDSM)に基づくアップリフトモデリングフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T09:15:28Z)
From Mimicking to Integrating: Knowledge Integration for Pre-Trained Language Models [55.137869702763375]
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。 KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
論文参考訳（メタデータ） (2022-10-11T07:59:08Z)
Deep Learning Models for Knowledge Tracing: Review and Empirical Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文参考訳（メタデータ） (2021-12-30T14:19:27Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。