論文の概要: Scavenging Hyena: Distilling Transformers into Long Convolution Models
- arxiv url: http://arxiv.org/abs/2401.17574v1
- Date: Wed, 31 Jan 2024 03:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:37:14.472378
- Title: Scavenging Hyena: Distilling Transformers into Long Convolution Models
- Title(参考訳): Scavenging Hyena: 変換器を長い畳み込みモデルに蒸留する
- Authors: Tokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad
Sami Nur Islam, Wassim Jabbour, Laurence Liang
- Abstract要約: 本稿では,大規模言語モデルの事前学習に伴う効率問題に対処する先駆的なアプローチを提案する。
提案手法は,従来の事前学習に代えて費用対効果の高い代替手段を提供するHyenaにより,トランスフォーマーモデルにおけるアテンションヘッドを置き換える。
従来の圧縮に着目した手法とは異なり,提案手法は推論速度を向上するだけでなく,精度と効率の両面で事前学習を超越する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid evolution of Large Language Models (LLMs), epitomized by
architectures like GPT-4, has reshaped the landscape of natural language
processing. This paper introduces a pioneering approach to address the
efficiency concerns associated with LLM pre-training, proposing the use of
knowledge distillation for cross-architecture transfer. Leveraging insights
from the efficient Hyena mechanism, our method replaces attention heads in
transformer models by Hyena, offering a cost-effective alternative to
traditional pre-training while confronting the challenge of processing long
contextual information, inherent in quadratic attention mechanisms. Unlike
conventional compression-focused methods, our technique not only enhances
inference speed but also surpasses pre-training in terms of both accuracy and
efficiency. In the era of evolving LLMs, our work contributes to the pursuit of
sustainable AI solutions, striking a balance between computational power and
environmental impact.
- Abstract(参考訳): GPT-4のようなアーキテクチャに代表されるLLM(Large Language Models)の急速な進化は、自然言語処理のランドスケープを形変えた。
本稿では,LLM事前学習に伴う効率問題に対処するための先駆的アプローチを提案する。
提案手法は,効率的なハイエナ機構からの洞察を生かして,2次注意機構に固有の長期的文脈情報処理の課題に直面しつつ,従来の事前学習に代わる費用対効果を提供するトランスフォーマーモデルの注目ヘッドをハイエナに置き換える。
従来の圧縮法とは異なり, この手法は推論速度を向上させるだけでなく, 精度と効率の両面で事前学習を超越する。
LLMの進化の時代において、我々の研究は持続可能なAIソリューションの追求に貢献し、計算能力と環境への影響のバランスを図った。
関連論文リスト
- DODT: Enhanced Online Decision Transformer Learning through Dreamer's Actor-Critic Trajectory Forecasting [37.334947053450996]
本稿では,Dreamerアルゴリズムの予測軌道生成能力とオンライン決定変換器の適応強度を組み合わせた新しい手法を提案する。
提案手法は,Dreamer-produced trajectories が変換器の文脈決定を促進させる並列学習を可能にする。
論文 参考訳(メタデータ) (2024-10-15T07:27:56Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - LInK: Learning Joint Representations of Design and Performance Spaces through Contrastive Learning for Mechanism Synthesis [15.793704096341523]
本稿では,性能と設計空間のコントラスト学習と最適化手法を統合する新しいフレームワークであるLInKを紹介する。
マルチモーダルおよび変換不変のコントラスト学習フレームワークを活用することで、LInKは複雑な物理学とメカニズムの設計表現をキャプチャする共同表現を学習する。
以上の結果から,LInKは機構設計の分野を進展させるだけでなく,他の工学分野へのコントラスト学習や最適化の適用性も拡大することが示された。
論文 参考訳(メタデータ) (2024-05-31T03:04:57Z) - Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers [1.1499643186017316]
本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。
Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
論文 参考訳(メタデータ) (2024-04-03T12:27:36Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Optimizing a Transformer-based network for a deep learning seismic
processing workflow [0.0]
StorSeismicは、様々な地震処理タスクに対応するためにTransformerをベースとした最近導入されたモデルである。
微調整作業における事前学習と競争の速さを観察し,バニラモデルと比較してトレーニングすべきパラメータを少なくする。
論文 参考訳(メタデータ) (2023-08-09T07:11:42Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Effective Pre-Training Objectives for Transformer-based Autoencoders [97.99741848756302]
トランスフォーマーエンコーダの効率,コスト,精度のトレードオフについて検討する。
共通の目的の機能を組み合わせて、新しい効果的な事前学習アプローチを作成します。
論文 参考訳(メタデータ) (2022-10-24T18:39:44Z) - Optimization-Derived Learning with Essential Convergence Analysis of
Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。
GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文 参考訳(メタデータ) (2022-06-16T01:50:25Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。