論文の概要: A Novel Approach To Implementing Knowledge Distillation In Tsetlin Machines
- arxiv url: http://arxiv.org/abs/2504.01798v1
- Date: Wed, 02 Apr 2025 15:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:18.173020
- Title: A Novel Approach To Implementing Knowledge Distillation In Tsetlin Machines
- Title(参考訳): Tsetlin マシンにおける知識蒸留の新たな実装法
- Authors: Calvin Kinateder,
- Abstract要約: Tsetlin Machine (TM) は命題論理に基づくモデルであり、データからパターンを学ぶために接続節を使用する。
本稿では,教師の出力サンプルの確率分布を利用して,知識蒸留をTsetlin Machinesに導入する手法を提案する。
提案アルゴリズムは,画像認識とテキスト分類の試験領域における遅延に悪影響を及ぼすことなく,学生モデルの性能を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Tsetlin Machine (TM) is a propositional logic based model that uses conjunctive clauses to learn patterns from data. As with typical neural networks, the performance of a Tsetlin Machine is largely dependent on its parameter count, with a larger number of parameters producing higher accuracy but slower execution. Knowledge distillation in neural networks transfers information from an already-trained teacher model to a smaller student model to increase accuracy in the student without increasing execution time. We propose a novel approach to implementing knowledge distillation in Tsetlin Machines by utilizing the probability distributions of each output sample in the teacher to provide additional context to the student. Additionally, we propose a novel clause-transfer algorithm that weighs the importance of each clause in the teacher and initializes the student with only the most essential data. We find that our algorithm can significantly improve performance in the student model without negatively impacting latency in the tested domains of image recognition and text classification.
- Abstract(参考訳): Tsetlin Machine (TM) は命題論理に基づくモデルであり、データからパターンを学ぶために接続節を使用する。
典型的なニューラルネットワークと同様に、Tsetlin Machineのパフォーマンスはパラメータ数に大きく依存する。
ニューラルネットワークの知識蒸留は、既に訓練済みの教師モデルからより小さな学生モデルに情報を伝達し、実行時間を増やすことなく生徒の精度を高める。
本稿では,教師の出力サンプルの確率分布を利用して,知識蒸留をTsetlin Machinesに導入し,学生に新たな文脈を提供する手法を提案する。
さらに,教師における各節の重要性を重み付け,最も本質的なデータのみを用いて生徒を初期化する新しい節移動アルゴリズムを提案する。
提案アルゴリズムは,画像認識とテキスト分類の試験領域における遅延に悪影響を及ぼすことなく,学生モデルの性能を著しく向上させることができる。
関連論文リスト
- Preserving Angles Improves Feature Distillation of Foundation Models [8.572967695281054]
圧縮空間ネットワークと学生画像モデルとの類似性を保存する。
様々なCossNetデータセットが、検出ベンチマークでより堅牢な精度で精度良く生成されることが示されている。
これにより、一般的な検出ベンチマークでのトレーニングの競合パスが提供される。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Synthetic data generation method for data-free knowledge distillation in
regression neural networks [0.0]
知識蒸留は、教師として知られる大きなニューラルネットワークを、学生として知られる小さなニューラルネットワークに圧縮する技術である。
従来, 学生モデルに逆らって学習したジェネレータモデルを用いて, 合成データを生成可能なデータフリー知識蒸留法が提案されてきた。
本研究では, 各種合成データ生成手法の挙動について検討し, 新たな合成データ生成戦略を提案する。
論文 参考訳(メタデータ) (2023-01-11T07:26:00Z) - Sparse Distillation: Speeding Up Text Classification by Using Bigger
Models [49.8019791766848]
最先端の変圧器モデルを軽量の学生モデルに拡張することは、推論時の計算コストを削減する効果的な方法である。
本稿では,学生モデルの設計空間における新しい領域を探索することにより,推論速度の限界をさらに推し進めることを目的とする。
実験の結果,RoBERTa-Large教師の授業成績の97%を6つのテキスト分類タスクのコレクションに保持していることがわかった。
論文 参考訳(メタデータ) (2021-10-16T10:04:14Z) - Dual Discriminator Adversarial Distillation for Data-free Model
Compression [36.49964835173507]
我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
論文 参考訳(メタデータ) (2021-04-12T12:01:45Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。