論文の概要: Multi-Level Knowledge Distillation for Out-of-Distribution Detection in
Text
- arxiv url: http://arxiv.org/abs/2211.11300v2
- Date: Wed, 24 May 2023 09:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 02:50:35.153919
- Title: Multi-Level Knowledge Distillation for Out-of-Distribution Detection in
Text
- Title(参考訳): テキスト内分布検出のための多レベル知識蒸留
- Authors: Qianhui Wu, Huiqiang Jiang, Haonan Yin, B\"orje F. Karlsson, Chin-Yew
Lin
- Abstract要約: 自己教師付き表現学習は、アウト・オブ・ディストリビューション(OoD)検出に有用な要素であることが証明されている。
本稿では,両OoD検出手法の相補的特性を解析する。
本稿では,その限界を緩和しつつ,その強度を統合した多段階の知識蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 12.428289757859433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning has proved to be a valuable component
for out-of-distribution (OoD) detection with only the texts of in-distribution
(ID) examples. These approaches either train a language model from scratch or
fine-tune a pre-trained language model using ID examples, and then take the
perplexity output by the language model as OoD scores. In this paper, we
analyze the complementary characteristics of both OoD detection methods and
propose a multi-level knowledge distillation approach that integrates their
strengths while mitigating their limitations. Specifically, we use a fine-tuned
model as the teacher to teach a randomly initialized student model on the ID
examples. Besides the prediction layer distillation, we present a
similarity-based intermediate layer distillation method to thoroughly explore
the representation space of the teacher model. In this way, the learned student
can better represent the ID data manifold while gaining a stronger ability to
map OoD examples outside the ID data manifold with the regularization inherited
from pre-training. Besides, the student model sees only ID examples during
parameter learning, further promoting more distinguishable features for OoD
detection. We conduct extensive experiments over multiple benchmark datasets,
i.e., CLINC150, SST, ROSTD, 20 NewsGroups, and AG News; showing that the
proposed method yields new state-of-the-art performance. We also explore its
application as an AIGC detector to distinguish between answers generated by
ChatGPT and human experts. It is observed that our model exceeds human
evaluators in the pair-expert task on the Human ChatGPT Comparison Corpus.
- Abstract(参考訳): 自己教師型表現学習は,分布外(OoD)検出において,分布内(ID)例のテキストのみを用いた貴重な要素であることが証明された。
これらのアプローチは、言語モデルをスクラッチからトレーニングするか、ID例を使ってトレーニング済みの言語モデルを微調整するか、あるいはOoDスコアとして言語モデルによって出力されるパープレキシティを判断する。
本稿では, 両OoD検出手法の相補的特性を解析し, 限界を緩和しつつ, 強度を統合した多段階の知識蒸留手法を提案する。
具体的には、教師として微調整モデルを用いて、IDの例についてランダムに初期化学生モデルを教える。
予測層蒸留の他に, 類似性に基づく中間層蒸留法を提案し, 教師モデルの表現空間を徹底的に探索する。
このようにして、学習した学生は、IDデータ多様体の外でOoD例を事前学習から継承した正規化でマッピングする能力を得ながら、IDデータ多様体をより良く表現することができる。
さらに、学生モデルはパラメータ学習中のID例しか見ず、OoD検出のためのより区別しやすい特徴を促進する。
我々は,複数のベンチマークデータセット,例えばCLINC150,SST,ROSTD,20 NewsGroups,AG Newsに対して広範な実験を行い,提案手法が新たな最先端性能をもたらすことを示す。
また、ChatGPTと人間の専門家による回答を区別するためのAIGC検出器としての利用についても検討する。
このモデルでは,Human ChatGPT Comparison Corpusのペア・エキスパート・タスクにおいて,人間の評価値を超えることが観察された。
関連論文リスト
- Out-of-Distribution Detection Using Peer-Class Generated by Large Language Model [0.0]
アウト・オブ・ディストリビューション(OOD)検出は、マシンラーニングモデルの信頼性とセキュリティを確保するための重要なタスクである。
本稿では,ODPCと呼ばれる新しい手法を提案し,大規模言語モデルを用いてOODピア・セマンティクスのクラスを生成する。
5つのベンチマークデータセットの実験により,提案手法は最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-20T06:04:05Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - No Shifted Augmentations (NSA): compact distributions for robust
self-supervised Anomaly Detection [4.243926243206826]
教師なし異常検出(AD)は正規化の概念を構築し、分布内(ID)と分布外(OOD)データを区別する必要がある。
我々は,ID特徴分布のエンフ幾何学的コンパクト性によって,外乱の分離や検出が容易になるかを検討する。
我々は,IDデータのコンパクトな分布を学習可能にする自己教師型特徴学習ステップに,新たなアーキテクチャ変更を提案する。
論文 参考訳(メタデータ) (2022-03-19T15:55:32Z) - Anomaly Detection via Reverse Distillation from One-Class Embedding [2.715884199292287]
教師エンコーダと生徒デコーダからなる新しいT-Sモデルを提案する。
生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り込む。
さらに、T-Sモデルにトレーニング可能な1クラスボトルネック埋め込みモジュールを導入する。
論文 参考訳(メタデータ) (2022-01-26T01:48:37Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。