Fugu-MT 論文翻訳(概要): Knowledge Translation: A New Pathway for Model Compression

論文の概要: Knowledge Translation: A New Pathway for Model Compression

arxiv url: http://arxiv.org/abs/2401.05772v1
Date: Thu, 11 Jan 2024 09:25:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 15:27:27.526063
Title: Knowledge Translation: A New Pathway for Model Compression
Title（参考訳）: 知識翻訳: モデル圧縮のための新しい経路
Authors: Wujie Sun, Defang Chen, Jiawei Chen, Yan Feng, Chun Chen, Can Wang
Abstract要約: TextbfKnowledge textbfTranslation (KT) 翻訳のモデルは、より大きなモデルのパラメータを受け取り、圧縮されたパラメータを生成するように訓練される。我々は、KTの包括的なフレームワークを提案し、制限されたトレーニングデータにもかかわらず、モデル性能を向上させるためのデータ拡張戦略を導入し、MNISTデータセット上でのKTの実現可能性の実証に成功した。
参考スコア（独自算出の注目度）: 22.106103818486144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning has witnessed significant advancements in recent years at the cost of increasing training, inference, and model storage overhead. While existing model compression methods strive to reduce the number of model parameters while maintaining high accuracy, they inevitably necessitate the re-training of the compressed model or impose architectural constraints. To overcome these limitations, this paper presents a novel framework, termed \textbf{K}nowledge \textbf{T}ranslation (KT), wherein a ``translation'' model is trained to receive the parameters of a larger model and generate compressed parameters. The concept of KT draws inspiration from language translation, which effectively employs neural networks to convert different languages, maintaining identical meaning. Accordingly, we explore the potential of neural networks to convert models of disparate sizes, while preserving their functionality. We propose a comprehensive framework for KT, introduce data augmentation strategies to enhance model performance despite restricted training data, and successfully demonstrate the feasibility of KT on the MNIST dataset. Code is available at \url{https://github.com/zju-SWJ/KT}.
Abstract（参考訳）: 近年のディープラーニングは,トレーニングや推論,モデルストレージオーバーヘッドの増大といったコストで,大幅な進歩を遂げている。既存のモデル圧縮手法は高い精度を維持しながらモデルパラメータの数を減らすことを目指しているが、圧縮モデルの再訓練やアーキテクチャ上の制約を必然的に必要としている。これらの制約を克服するため,本稿では,大モデルのパラメータを受け取り,圧縮されたパラメータを生成するために,‘翻訳’モデルを訓練した新しいフレームワークである‘textbf{K}nowledge \textbf{T}ranslation (KT) を提案する。 KTの概念は、ニューラルネットワークを使って異なる言語を変換し、同じ意味を維持する言語翻訳から着想を得ている。そこで我々は,ニューラルネットワークが機能を維持しつつ,異なるサイズのモデルを変換する可能性を探る。我々は、KTの包括的なフレームワークを提案し、制限されたトレーニングデータにもかかわらず、モデル性能を向上させるためのデータ拡張戦略を導入し、MNISTデータセット上でのKTの実現可能性の実証に成功した。コードは \url{https://github.com/zju-SWJ/KT} で入手できる。

関連論文リスト

SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-05-19T17:57:36Z)
Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。 LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。 LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
Efficient Language Modeling for Low-Resource Settings with Hybrid RNN-Transformer Architectures [8.442206285783463]
トランスフォーマーベースの言語モデルは、最近テキスト生成における活発な研究の最前線にある。これらのモデルの進歩は、数十億のパラメータ数とペタフロップ/秒単位の計算要求によって、禁止的なトレーニングコストの価格で実現されている。注目層をフィードフォワードと準リカレントニューラルネットワーク層に選択的に置き換えることで,低データ方式におけるモデル性能向上のためのトランスフォーマーアーキテクチャについて検討する。
論文参考訳（メタデータ） (2025-02-02T01:05:09Z)
Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文参考訳（メタデータ） (2024-11-10T12:40:59Z)
Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2024-10-29T01:12:50Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
The LLM Surgeon [33.90611088414982]
我々は、スクラッチから小さなモデルをトレーニングする代替手段として、既存の事前訓練モデルのデータ駆動圧縮について検討する。我々は、非構造的、半構造的、構造的プルーニングのための一般的なフレームワークを提供し、重み間の相関性を高めるために、重み更新を改善する。提案手法では,OPTモデルとLlamav2-7Bの行と列を20%～30%削減できる。
論文参考訳（メタデータ） (2023-12-28T18:59:09Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文参考訳（メタデータ） (2023-09-14T08:07:49Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文参考訳（メタデータ） (2022-11-09T15:07:06Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。