論文の概要: WaveletGPT: Wavelets Meet Large Language Models
- arxiv url: http://arxiv.org/abs/2409.12924v3
- Date: Thu, 05 Dec 2024 18:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:29.972114
- Title: WaveletGPT: Wavelets Meet Large Language Models
- Title(参考訳): WaveletGPT: ウェーブレットは大きな言語モデルと出会う
- Authors: Prateek Verma,
- Abstract要約: 大規模言語モデル(LLM)は、人工知能の新たな進歩の波を支えている。
本稿では,従来の信号処理のアイデアであるウェーブレットを事前学習中にLLMに注入し,その利点を生かした。
我々は、テキスト、生のオーディオ、シンボリック音楽において、ほぼ2倍の速さで事前学習を行う。
- 参考スコア(独自算出の注目度): 1.2328446298523066
- License:
- Abstract: Large Language Models (LLMs) have ushered in a new wave of artificial intelligence advancements impacting every scientific field and discipline. They are trained on a simple objective: to predict the next token given the previous context. We live in a world where most of the data around us, e.g., text, audio, and music, has a multi-scale structure associated with it. This paper infuses LLMs with traditional signal processing ideas, namely wavelets, during pre-training to take advantage of the structure. Without adding \textbf{any extra parameters} to a GPT-style LLM architecture, we achieve the same pre-training performance almost twice as fast in text, raw audio, and symbolic music. This is achieved by imposing a structure on intermediate embeddings. When trained for the same number of training steps, we achieve significant gains in performance, which is comparable to pre-training a larger neural architecture. Our architecture allows every next token prediction access to intermediate embeddings at different temporal resolutions in every Transformer decoder block. This work will hopefully pave the way for incorporating multi-rate signal processing ideas into traditional LLM pre-training. Further, we showcase pushing model performance by improving internal structure instead of just going after scale.
- Abstract(参考訳): 大規模言語モデル(LLM)は、あらゆる科学分野や分野に影響を及ぼす人工知能の新たな波を導いてきた。
それらは単純な目的、つまり前のコンテキストに与えられた次のトークンを予測することに基づいて訓練される。
私たちは、テキスト、オーディオ、音楽など、私たちを取り巻くほとんどのデータが、それに関連するマルチスケールな構造を持つ世界に住んでいる。
本稿では,従来の信号処理のアイデアであるウェーブレットを事前学習中にLLMに注入し,その利点を生かした。
GPTスタイルのLLMアーキテクチャに‘textbf{any extra parameters} を追加することなく、テキスト、生のオーディオ、シンボリック音楽の約2倍の速さで事前学習性能を実現する。
これは中間埋め込みに構造を与えることによって達成される。
同じ数のトレーニングステップでトレーニングを行うと、大きなニューラルネットワークアーキテクチャの事前トレーニングに匹敵する、パフォーマンスの大幅な向上を実現します。
我々のアーキテクチャは、Transformerデコーダブロックごとに異なる時間分解能の中間埋め込みへの次のトークン予測アクセスを可能にする。
この作業は、従来のLLM事前学習にマルチレート信号処理のアイデアを組み込むための道を開くことを願っている。
さらに,本研究では,単に規模を拡大するのではなく,内部構造の改善によるモデル性能の向上を示す。
関連論文リスト
- Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison [27.44915531637358]
本研究では,高密度機能プリペンディング(DFP)とクロスアテンションアーキテクチャの性能を比較した。
DFPは広く採用されているが,本研究の結果はDFPのクロスアテンションに対する優位性を示すものではない。
論文 参考訳(メタデータ) (2025-01-04T20:14:16Z) - Whisper-GPT: A Hybrid Representation Audio Large Language Model [1.2328446298523066]
音声と音楽のための生成的大規模言語モデル(LLM)により,単一アーキテクチャの一部として連続的な音声表現と離散トークンを同時に扱うことができる。
我々は,次のトークン予測において,我々のアーキテクチャが難易度と負のログライクなスコアを,音声と音楽のトークンベースのLLMと比較していかに改善するかを示す。
論文 参考訳(メタデータ) (2024-12-16T05:03:48Z) - Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。
提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文 参考訳(メタデータ) (2024-12-06T18:22:59Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Adaptive Large Language Models By Layerwise Attention Shortcuts [46.76681147411957]
LLMライクなセットアップにより、最終レイヤはアテンションメカニズムを通じて適合すると考えられるすべての中間レイヤに出席することができる。
音響トークン,自然言語,シンボリック音楽の4つの異なるデータセットを紹介し,GPTアーキテクチャの優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-17T03:46:01Z) - Towards Signal Processing In Large Language Models [46.76681147411957]
本稿では,Large Language Model (LLM) 内で信号処理を適用するという考え方を紹介する。
古典的なフーリエ変換とフーリエ変換のような学習可能な時間周波数表現の並列性を描く。
GPTのようなアーキテクチャでは、より高速な収束を実現し、性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-10T13:51:52Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Fully Learnable Deep Wavelet Transform for Unsupervised Monitoring of
High-Frequency Time Series [2.7793394375935088]
高周波(HF)信号は産業界に広く存在しており、産業資産の監視に非常に有用である。
ほとんどのディープラーニングツールは、固定サイズおよび/または非常に制限された入力用に設計されており、インプット抽出機能として産業的文脈にディープラーニングの応用が成功している。
生のHF信号の有意義で疎い表現を抽出できる、完全に監視されていないディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T14:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。