論文の概要: Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity
- arxiv url: http://arxiv.org/abs/2410.06846v2
- Date: Mon, 23 Dec 2024 13:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:53.745549
- Title: Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity
- Title(参考訳): 線形複雑度に対する事前学習音声と言語モデルの連成微調整と変換
- Authors: Mutian He, Philip N. Garner,
- Abstract要約: 本稿では,変換器モデルを線形時間置換器に変換し,目標タスクに微調整するクロスアーキテクチャ層蒸留(CALD)手法を提案する。
そこで本研究では,CALDが元のモデルの結果を効果的に回収できることを示す。
- 参考スコア(独自算出の注目度): 11.302828987873497
- License:
- Abstract: Architectures such as Linformer and Mamba have recently emerged as competitive linear time replacements for transformers. However, corresponding large pretrained models are often unavailable, especially in non-text domains. To remedy this, we present a Cross-Architecture Layerwise Distillation (CALD) approach that jointly converts a transformer model to a linear time substitute and fine-tunes it to a target task. We also compare several means to guide the fine-tuning to optimally retain the desired inference capability from the original model. The methods differ in their use of the target model and the trajectory of the parameters. In a series of empirical studies on language processing, language modeling, and speech processing, we show that CALD can effectively recover the result of the original model, and that the guiding strategy contributes to the result. Some reasons for the variation are suggested.
- Abstract(参考訳): LinformerやMambaのようなアーキテクチャは、最近、トランスフォーマーの競合する線形時間置換として登場した。
しかし、対応する大きな事前訓練されたモデルは、特に非テキスト領域では利用できないことが多い。
これを解決するために,変換器モデルを線形時間置換器に変換し,ターゲットタスクに微調整するクロスアーキテクチャ層蒸留(CALD)手法を提案する。
また,本モデルから所望の推論能力を最適に維持するために,ファインチューニングを導くいくつかの方法を比較する。
対象モデルとパラメータの軌跡は,それぞれ異なる。
言語処理,言語モデリング,音声処理に関する一連の実証研究において,CALDが元のモデルの結果を効果的に回復できることを示す。
この変化のいくつかの理由が示唆されている。
関連論文リスト
- Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Demystifying the Communication Characteristics for Distributed Transformer Models [2.849208476795592]
本稿ではトランスモデルの通信挙動について検討する。
我々はGPTに基づく言語モデルをトランスフォーマーアーキテクチャの汎用性によるケーススタディとして用いている。
高いレベルでは、我々の分析により、より小さなメッセージポイントツーポイント通信を最適化する必要性が明らかになる。
論文 参考訳(メタデータ) (2024-08-19T17:54:29Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Probabilistic Topic Modelling with Transformer Representations [0.9999629695552195]
トランスフォーマー表現型ニューラルトピックモデル(TNTM)を提案する。
このアプローチは、完全に確率論的モデリングを伴うトランスフォーマー埋め込みに基づくトピックの強力で汎用的な概念を統一する。
実験の結果,提案手法は組込みコヒーレンスの観点から,様々な最先端手法に匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-06T14:27:29Z) - Merging Text Transformer Models from Different Initializations [7.768975909119287]
異なるTransformer minimaが類似した特徴を学習する程度について検討する。
損失景観におけるこれらのミニマの関係を調べるためのモデルマージ手法を提案する。
以上の結果から,これらのモデルのミニマは従来理解されていたよりもシャープで孤立していないことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-01T21:16:29Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。