論文の概要: Knowledge Translation: A New Pathway for Model Compression
- arxiv url: http://arxiv.org/abs/2401.05772v1
- Date: Thu, 11 Jan 2024 09:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 15:27:27.526063
- Title: Knowledge Translation: A New Pathway for Model Compression
- Title(参考訳): 知識翻訳: モデル圧縮のための新しい経路
- Authors: Wujie Sun, Defang Chen, Jiawei Chen, Yan Feng, Chun Chen, Can Wang
- Abstract要約: TextbfKnowledge textbfTranslation (KT)
翻訳のモデルは、より大きなモデルのパラメータを受け取り、圧縮されたパラメータを生成するように訓練される。
我々は、KTの包括的なフレームワークを提案し、制限されたトレーニングデータにもかかわらず、モデル性能を向上させるためのデータ拡張戦略を導入し、MNISTデータセット上でのKTの実現可能性の実証に成功した。
- 参考スコア(独自算出の注目度): 22.106103818486144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has witnessed significant advancements in recent years at the
cost of increasing training, inference, and model storage overhead. While
existing model compression methods strive to reduce the number of model
parameters while maintaining high accuracy, they inevitably necessitate the
re-training of the compressed model or impose architectural constraints. To
overcome these limitations, this paper presents a novel framework, termed
\textbf{K}nowledge \textbf{T}ranslation (KT), wherein a ``translation'' model
is trained to receive the parameters of a larger model and generate compressed
parameters. The concept of KT draws inspiration from language translation,
which effectively employs neural networks to convert different languages,
maintaining identical meaning. Accordingly, we explore the potential of neural
networks to convert models of disparate sizes, while preserving their
functionality. We propose a comprehensive framework for KT, introduce data
augmentation strategies to enhance model performance despite restricted
training data, and successfully demonstrate the feasibility of KT on the MNIST
dataset. Code is available at \url{https://github.com/zju-SWJ/KT}.
- Abstract(参考訳): 近年のディープラーニングは,トレーニングや推論,モデルストレージオーバーヘッドの増大といったコストで,大幅な進歩を遂げている。
既存のモデル圧縮手法は高い精度を維持しながらモデルパラメータの数を減らすことを目指しているが、圧縮モデルの再訓練やアーキテクチャ上の制約を必然的に必要としている。
これらの制約を克服するため,本稿では,大モデルのパラメータを受け取り,圧縮されたパラメータを生成するために,‘翻訳’モデルを訓練した新しいフレームワークである‘textbf{K}nowledge \textbf{T}ranslation (KT) を提案する。
KTの概念は、ニューラルネットワークを使って異なる言語を変換し、同じ意味を維持する言語翻訳から着想を得ている。
そこで我々は,ニューラルネットワークが機能を維持しつつ,異なるサイズのモデルを変換する可能性を探る。
我々は、KTの包括的なフレームワークを提案し、制限されたトレーニングデータにもかかわらず、モデル性能を向上させるためのデータ拡張戦略を導入し、MNISTデータセット上でのKTの実現可能性の実証に成功した。
コードは \url{https://github.com/zju-SWJ/KT} で入手できる。
関連論文リスト
- Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。
このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。
現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-10-29T01:12:50Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - The LLM Surgeon [33.90611088414982]
我々は、スクラッチから小さなモデルをトレーニングする代替手段として、既存の事前訓練モデルのデータ駆動圧縮について検討する。
我々は、非構造的、半構造的、構造的プルーニングのための一般的なフレームワークを提供し、重み間の相関性を高めるために、重み更新を改善する。
提案手法では,OPTモデルとLlamav2-7Bの行と列を20%~30%削減できる。
論文 参考訳(メタデータ) (2023-12-28T18:59:09Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。
エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文 参考訳(メタデータ) (2022-11-09T15:07:06Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。