論文の概要: RoSearch: Search for Robust Student Architectures When Distilling
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2106.03613v1
- Date: Mon, 7 Jun 2021 13:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:51:46.656306
- Title: RoSearch: Search for Robust Student Architectures When Distilling
Pre-trained Language Models
- Title(参考訳): RoSearch: 事前訓練された言語モデルを蒸留する際のロバストな学生アーキテクチャの探索
- Authors: Xin Guo, Jianlei Yang, Haoyi Zhou, Xucheng Ye, Jianxin Li
- Abstract要約: 知識蒸留によって得られた学生モデルは敵の攻撃に悩まされ、セキュリティに敏感なシナリオでの使用を制限する。
有向非巡回グラフに基づく探索空間を構築し、進化的探索戦略を用いて探索手法を導出する。
実験の結果、RoSearchは学生モデルの堅牢性を7%18%から45.8%47.8%に改善できることがわかった。
- 参考スコア(独自算出の注目度): 11.906350752875342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models achieve outstanding performance in NLP tasks.
Various knowledge distillation methods have been proposed to reduce the heavy
computation and storage requirements of pre-trained language models. However,
from our observations, student models acquired by knowledge distillation suffer
from adversarial attacks, which limits their usage in security sensitive
scenarios. In order to overcome these security problems, RoSearch is proposed
as a comprehensive framework to search the student models with better
adversarial robustness when performing knowledge distillation. A directed
acyclic graph based search space is built and an evolutionary search strategy
is utilized to guide the searching approach. Each searched architecture is
trained by knowledge distillation on pre-trained language model and then
evaluated under a robustness-, accuracy- and efficiency-aware metric as
environmental fitness. Experimental results show that RoSearch can improve
robustness of student models from 7%~18% up to 45.8%~47.8% on different
datasets with comparable weight compression ratio to existing distillation
methods (4.6$\times$~6.5$\times$ improvement from teacher model BERT_BASE) and
low accuracy drop. In addition, we summarize the relationship between student
architecture and robustness through statistics of searched models.
- Abstract(参考訳): 事前訓練された言語モデルは、NLPタスクにおいて優れたパフォーマンスを達成する。
事前学習した言語モデルの重い計算と保存要求を低減するため,様々な知識蒸留法が提案されている。
しかし,我々の観察では,知識蒸留によって獲得された学生モデルは,セキュリティに敏感なシナリオでの使用を制限する敵の攻撃に苦しむ。
これらのセキュリティ問題を解決するため、RoSearchは、知識蒸留を行う際に、より良い対角的堅牢性で学生モデルを探索するための包括的なフレームワークとして提案されている。
有向非巡回グラフに基づく探索空間を構築し、探索アプローチを導くために進化的探索戦略を利用する。
それぞれの探索されたアーキテクチャは、事前学習された言語モデルの知識蒸留によって訓練され、環境適合性として堅牢性、正確性、効率性が評価される。
実験の結果、rosearchは、既存の蒸留法と同等の重量圧縮率(教師モデルbert_baseから4.6$\times$~6.5$\times$改善)と低い精度で、異なるデータセットで7%~18%から45.8%〜47.8%までの学生モデルのロバスト性を向上させることが示されている。
また,検索モデルの統計を通じて,学生のアーキテクチャとロバスト性との関係を要約する。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Context Unaware Knowledge Distillation for Image Retrieval [11.38957822323395]
既存の知識蒸留法では、深い(教師)モデルのロジットやその他の特徴を用いる。
本研究では,教師モデルの知識を標的の文脈で微調整することなく活用する,文脈を意識しない知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:51:39Z) - Robust Active Learning: Sample-Efficient Training of Robust Deep
Learning Models [23.45276407731157]
本稿では, 対人訓練を統合した能動的学習プロセスである, インプロバスト能動的学習を提案する。
我々は、頑健なアクティブラーニングが2.35%から63.85%の範囲の頑健さ(敵の例の精度)を持つモデルを生成することを示した。
エントロピーを用いた密度ベースロバストサンプリング(DRE)は、ロバスト性の観点から、他の(ランダムを含む)取得関数よりも優れている。
論文 参考訳(メタデータ) (2021-12-05T11:13:50Z) - Voting based ensemble improves robustness of defensive models [82.70303474487105]
我々は、より堅牢性を高めるためのアンサンブルを作ることができるかどうか研究する。
最先端の先制防衛モデルを複数組み合わせることで,59.8%の堅牢な精度を達成できる。
論文 参考訳(メタデータ) (2020-11-28T00:08:45Z) - Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。
本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文 参考訳(メタデータ) (2020-09-15T17:43:02Z) - Adversarial Concurrent Training: Optimizing Robustness and Accuracy
Trade-off of Deep Neural Networks [13.041607703862724]
ミニマックスゲームにおいて,自然モデルと連動して頑健なモデルを訓練するための適応的並行訓練(ACT)を提案する。
ACTは標準精度68.20%、目標外攻撃で44.29%のロバスト性を達成している。
論文 参考訳(メタデータ) (2020-08-16T22:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。