論文の概要: Confidence Preservation Property in Knowledge Distillation Abstractions
- arxiv url: http://arxiv.org/abs/2401.11365v1
- Date: Sun, 21 Jan 2024 01:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:57:04.428983
- Title: Confidence Preservation Property in Knowledge Distillation Abstractions
- Title(参考訳): 知識蒸留抽象化における信頼性保持特性
- Authors: Dmitry Vengertsev, Elena Sherman
- Abstract要約: ソーシャルメディアプラットフォームは、投稿やコメントの有害な内容を検出することによって悪意ある活動を防ぐ。
感情分析とコンテンツ理解のために、大規模なディープニューラルネットワークモデルを採用している。
BERTのようないくつかのモデルは複雑で、多くのパラメータを持ち、運用やメンテナンスに費用がかかる。
産業専門家は知識蒸留圧縮技術を用いて、蒸留されたモデルを訓練し、元のモデルの分類挙動を再現する。
- 参考スコア(独自算出の注目度): 2.9370710299422598
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Social media platforms prevent malicious activities by detecting harmful
content of posts and comments. To that end, they employ large-scale deep neural
network language models for sentiment analysis and content understanding. Some
models, like BERT, are complex, and have numerous parameters, which makes them
expensive to operate and maintain. To overcome these deficiencies, industry
experts employ a knowledge distillation compression technique, where a
distilled model is trained to reproduce the classification behavior of the
original model. The distillation processes terminates when the distillation
loss function reaches the stopping criteria. This function is mainly designed
to ensure that the original and the distilled models exhibit alike
classification behaviors. However, besides classification accuracy, there are
additional properties of the original model that the distilled model should
preserve to be considered as an appropriate abstraction. In this work, we
explore whether distilled TinyBERT models preserve confidence values of the
original BERT models, and investigate how this confidence preservation property
could guide tuning hyperparameters of the distillation process.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、投稿やコメントの有害なコンテンツを検出することで悪意のある活動を防止する。
そのため、感情分析やコンテンツ理解のために、大規模なディープニューラルネットワークモデルを採用している。
BERTのようないくつかのモデルは複雑で、多くのパラメータを持ち、運用やメンテナンスに費用がかかる。
これらの欠陥を克服するため、産業専門家は、蒸留モデルを訓練して原モデルの分類挙動を再現する知識蒸留圧縮技術を採用している。
蒸留処理は、蒸留損失関数が停止基準に達すると終了する。
この機能は、主にオリジナルモデルと蒸留モデルが類似した分類行動を示すように設計されている。
しかし、分類精度の他に、蒸留モデルが適切な抽象化と見なすために保存すべき元のモデルには追加的な特性がある。
本研究では, 蒸留したTinyBERTモデルが元のBERTモデルの信頼性値を保持するかどうかを考察し, この信頼性保持特性が蒸留プロセスの過度パラメータのチューニングをいかに導くかを検討する。
関連論文リスト
- Training on the Test Model: Contamination in Ranking Distillation [14.753216172912968]
蒸留における汚染された教師モデルの効果について検討する。
教師のトレーニングサンプルのごく一部を表すテストデータであっても,汚染が生じることが判明した。
論文 参考訳(メタデータ) (2024-11-04T17:11:14Z) - Generic-to-Specific Distillation of Masked Autoencoders [119.21281960831651]
マスク付きオートエンコーダによって事前訓練された大型モデルの監督下で, 小型ViTモデルのポテンシャルを活かすため, 汎用型蒸留法(G2SD)を提案する。
G2SDでは、バニラViT-Smallモデルは98.7%、98.1%、99.3%のパフォーマンスを画像分類、オブジェクト検出、セマンティックセグメンテーションのために達成している。
論文 参考訳(メタデータ) (2023-02-28T17:13:14Z) - Watermarking for Out-of-distribution Detection [76.20630986010114]
Out-of-Distribution (OOD) 検出は、よく訓練された深層モデルから抽出された表現に基づいてOODデータを識別することを目的としている。
本稿では,透かしという一般的な手法を提案する。
我々は,元データの特徴に重畳される統一パターンを学習し,ウォーターマーキング後にモデルの検出能力が大きく向上する。
論文 参考訳(メタデータ) (2022-10-27T06:12:32Z) - Normalized Feature Distillation for Semantic Segmentation [6.882655287146012]
正規化特徴蒸留(NFD)と呼ばれる簡易かつ効果的な特徴蒸留法を提案する。
提案手法は,都市景観,VOC 2012,ADE20Kデータセットのセマンティックセマンティックセマンティックセグメンテーションのための,最先端の蒸留結果を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:54:25Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Why Can You Lay Off Heads? Investigating How BERT Heads Transfer [37.9520341259181]
蒸留の主な目的は、ダウンストリームタスクで微調整できるタスク非依存の事前訓練モデルを作ることであり、フルサイズのバージョンを微調整する必要はない。
蒸留の進展にもかかわらず、どの程度、どのような理由から、蒸留からタスク非依存モデルを作成することができるかについては、十分に研究されていない。
本研究は, 今後の蒸留プロセスの指針となる蒸留時の許容推算分析に焦点をあてる。
論文 参考訳(メタデータ) (2021-06-14T02:27:47Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。