論文の概要: Improving Neural Topic Models with Wasserstein Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2303.15350v1
- Date: Mon, 27 Mar 2023 16:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 14:26:30.837146
- Title: Improving Neural Topic Models with Wasserstein Knowledge Distillation
- Title(参考訳): wasserstein知識蒸留による神経話題モデルの改善
- Authors: Suman Adhya, Debarshi Kumar Sanyal
- Abstract要約: 本稿では,トピックの品質を損なうことなく,文脈化されたトピックモデルを圧縮する知識蒸留フレームワークを提案する。
実験により, 知識蒸留の訓練を受けた学生は, 本来の学生モデルよりも, トピックコヒーレンスをはるかに高い精度で達成できることがわかった。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic modeling is a dominant method for exploring document collections on the
web and in digital libraries. Recent approaches to topic modeling use
pretrained contextualized language models and variational autoencoders.
However, large neural topic models have a considerable memory footprint. In
this paper, we propose a knowledge distillation framework to compress a
contextualized topic model without loss in topic quality. In particular, the
proposed distillation objective is to minimize the cross-entropy of the soft
labels produced by the teacher and the student models, as well as to minimize
the squared 2-Wasserstein distance between the latent distributions learned by
the two models. Experiments on two publicly available datasets show that the
student trained with knowledge distillation achieves topic coherence much
higher than that of the original student model, and even surpasses the teacher
while containing far fewer parameters than the teacher's. The distilled model
also outperforms several other competitive topic models on topic coherence.
- Abstract(参考訳): トピックモデリングは、webおよびデジタルライブラリでドキュメントコレクションを探索するための主要な方法である。
トピックモデリングへの最近のアプローチは、事前訓練された文脈言語モデルと変分オートエンコーダを用いる。
しかし、大きなニューラルトピックモデルはメモリフットプリントがかなり大きい。
本稿では,話題品質を損なうことなく文脈化トピックモデルを圧縮する知識蒸留フレームワークを提案する。
特に, 提案した蒸留の目的は, 教師と学生モデルが生成するソフトラベルの交叉エントロピーを最小化し, 2つのモデルで学習した潜在分布間の2-ワッサーシュタイン距離を最小化することである。
2つの公開データセットで実験したところ、知識蒸留の訓練を受けた学生は、元の学生モデルよりもトピックコヒーレンスをはるかに高く達成し、教師よりもはるかに少ないパラメータを含む教師を超越していることがわかった。
蒸留されたモデルは、トピックコヒーレンスに関する他の競合トピックモデルよりも優れている。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Generative Forests [23.554594285885273]
私たちは、表データという最も一般的な形式のデータのうちの1つを表わすデータのための生成AIに焦点を合わせています。
本稿では,このような課題に適合する森林モデルの新しい強力なクラスと,強力な収束保証を備えた簡単なトレーニングアルゴリズムを提案する。
これらのタスクに関する追加実験により、我々のモデルは、多種多様な技術手法に対する優れた競争相手になり得ることが判明した。
論文 参考訳(メタデータ) (2023-08-07T14:58:53Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Prototype-guided Cross-task Knowledge Distillation for Large-scale
Models [103.04711721343278]
クロスタスクの知識蒸留は、競争力のあるパフォーマンスを得るために小さな学生モデルを訓練するのに役立ちます。
本稿では,大規模教師ネットワークの内在的ローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するための,プロトタイプ誘導型クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-26T15:00:42Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。