Fugu-MT 論文翻訳(概要): Laughing Hyena Distillery: Extracting Compact Recurrences From Convolutions

論文の概要: Laughing Hyena Distillery: Extracting Compact Recurrences From Convolutions

arxiv url: http://arxiv.org/abs/2310.18780v1
Date: Sat, 28 Oct 2023 18:40:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 16:28:00.489205
Title: Laughing Hyena Distillery: Extracting Compact Recurrences From Convolutions
Title（参考訳）: 笑うハイエナ蒸留所:畳み込みから小さな再発を抽出する
Authors: Stefano Massaroli, Michael Poli, Daniel Y. Fu, Hermann Kumbong, Rom N. Parnichkun, Aman Timalsina, David W. Romero, Quinn McIntyre, Beidi Chen, Atri Rudra, Ce Zhang, Christopher Re, Stefano Ermon, Yoshua Bengio
Abstract要約: 近年のアテンションフリーシーケンスモデルの発展は、トランスフォーマーのコアにあるアテンション演算子の代替として、畳み込みに依存している。本稿では,事前学習した長大な畳み込みアーキテクチャにおいて,トークン当たりの計算コストとメモリコストを$mathcal O(1)$にすることを提案する。
参考スコア（独自算出の注目度）: 101.08706223326928
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in attention-free sequence models rely on convolutions as alternatives to the attention operator at the core of Transformers. In particular, long convolution sequence models have achieved state-of-the-art performance in many domains, but incur a significant cost during auto-regressive inference workloads -- naively requiring a full pass (or caching of activations) over the input sequence for each generated token -- similarly to attention-based models. In this paper, we seek to enable $\mathcal O(1)$ compute and memory cost per token in any pre-trained long convolution architecture to reduce memory footprint and increase throughput during generation. Concretely, our methods consist in extracting low-dimensional linear state-space models from each convolution layer, building upon rational interpolation and model-order reduction techniques. We further introduce architectural improvements to convolution-based layers such as Hyena: by weight-tying the filters across channels into heads, we achieve higher pre-training quality and reduce the number of filters to be distilled. The resulting model achieves 10x higher throughput than Transformers and 1.5x higher than Hyena at 1.3B parameters, without any loss in quality after distillation.
Abstract（参考訳）: 注意のないシーケンスモデルの最近の進歩は、トランスフォーマーのコアにある注意演算子の代替として、畳み込みに依存している。特に、長い畳み込みシーケンスモデルは、多くのドメインで最先端のパフォーマンスを達成したが、自動回帰推論ワークロードの間、かなりのコストが発生する。本稿では,メモリフットプリントの削減と生成時のスループット向上を目的として,事前学習した長畳み込みアーキテクチャにおいてトークン当たりの計算コストとメモリコストを$\mathcal O(1)で実現する。具体的には,各畳み込み層から低次元線形状態空間モデルを抽出し,合理的補間法とモデル次還元法に基づいて構成する。さらに,Hyenaのような畳み込み型層にアーキテクチャ的改良を加え,チャネル間のフィルタを重み付けすることで,事前学習の質を高め,蒸留するフィルタの数を削減する。その結果、1.3bのパラメータでトランスフォーマより10倍、ハイエナより1.5倍のスループットを達成し、蒸留後の品質を損なうことはない。

関連論文リスト

CoVAE: Consistency Training of Variational Autoencoders [9.358185536754537]
本稿では,一貫性モデルからVAEアーキテクチャをトレーニングするための手法を取り入れた,新しい単一ステージ生成自動符号化フレームワークを提案する。我々は,CoVAEが学習前の知識を使わずに,高品質なサンプルを1段階ないし数段階で生成できることを実証した。提案手法は,自動エンコーディングと拡散型生成モデルのための統一的なフレームワークを提供し,一段階の高速自動エンコーディングのための実行可能な経路を提供する。
論文参考訳（メタデータ） (2025-07-12T01:32:08Z)
High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。本手法は,最先端モデルのFLOPを24～43%削減する。
論文参考訳（メタデータ） (2025-05-11T13:18:03Z)
Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文参考訳（メタデータ） (2025-04-24T13:57:08Z)
CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers [0.3626013617212666]
本稿では,CAT(Circular-convolutional Attention)を導入し,表現力を犠牲にすることなく複雑性を低減する。 CATはO(NlogN)計算を実現し、完全に接続されたレイヤを合理化することで学習可能なパラメータを少なくする。 CATの設計はエンジニアリングの同型フレームワークに基づいており、実用的効率と実装の容易さを提供する。
論文参考訳（メタデータ） (2025-04-09T09:08:26Z)
Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文参考訳（メタデータ） (2025-02-25T19:47:20Z)
CAT Pruning: Cluster-Aware Token Pruning For Text-to-Image Diffusion Models [5.406829638216823]
拡散モデルは、特にテキスト対画像合成の領域において、生成タスクに革命をもたらした。しかし、反復的なデノゲーションプロセスは、かなりの計算資源を必要とする。本稿では、トークンレベルのプルーニングとキャッシュ技術を統合して、この計算課題に対処する新しい加速戦略を提案する。
論文参考訳（メタデータ） (2025-02-01T13:46:02Z)
LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。蒸留したLinFusionは,元のSDと同等以上の性能を示す。 SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文参考訳（メタデータ） (2024-09-03T17:54:39Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文参考訳（メタデータ） (2023-05-17T03:19:18Z)
Sequence Modeling with Multiresolution Convolutional Memory [27.218134279968062]
我々は、MultiresLayerと呼ばれるシーケンスモデリングのための新しいビルディングブロックを構築します。我々のモデルの主要な構成要素はマルチレゾリューション・コンボリューションであり、入力シーケンスにおけるマルチスケールトレンドをキャプチャする。本モデルでは,多数のシーケンス分類と自己回帰密度推定タスクについて,最先端の性能を示す。
論文参考訳（メタデータ） (2023-05-02T17:50:54Z)
Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文参考訳（メタデータ） (2023-01-09T17:32:00Z)
AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。 GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文参考訳（メタデータ） (2022-10-08T00:36:00Z)
Megapixel Image Generation with Step-Unrolled Denoising Autoencoders [5.145313322824774]
本稿では,サンプルの解像度を高くする手法と,トレーニングとサンプリングの計算要求を低減させる手法の組み合わせを提案する。例えば、ベクトル量子化GAN(VQ-GAN)、高レベルの損失 - しかし知覚的に重要 - 圧縮 - が可能なベクトル量子化(VQ)モデル、時間ガラストランスフォーマー、高スケールの自己アテンションモデル、非自己回帰(NAR)テキスト生成モデルであるステップ制御型デノイングオートエンコーダ(SUNDAE)などがある。提案するフレームワークは,高解像度(1024×1024$)までスケールし,(高速で)トレーニングを行う。
論文参考訳（メタデータ） (2022-06-24T15:47:42Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。