論文の概要: WaveletGPT: Wavelets Meet Large Language Models
- arxiv url: http://arxiv.org/abs/2409.12924v3
- Date: Thu, 05 Dec 2024 18:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:29.972114
- Title: WaveletGPT: Wavelets Meet Large Language Models
- Title(参考訳): WaveletGPT: ウェーブレットは大きな言語モデルと出会う
- Authors: Prateek Verma,
- Abstract要約: 大規模言語モデル(LLM)は、人工知能の新たな進歩の波を支えている。
本稿では,従来の信号処理のアイデアであるウェーブレットを事前学習中にLLMに注入し,その利点を生かした。
我々は、テキスト、生のオーディオ、シンボリック音楽において、ほぼ2倍の速さで事前学習を行う。
- 参考スコア(独自算出の注目度): 1.2328446298523066
- License:
- Abstract: Large Language Models (LLMs) have ushered in a new wave of artificial intelligence advancements impacting every scientific field and discipline. They are trained on a simple objective: to predict the next token given the previous context. We live in a world where most of the data around us, e.g., text, audio, and music, has a multi-scale structure associated with it. This paper infuses LLMs with traditional signal processing ideas, namely wavelets, during pre-training to take advantage of the structure. Without adding \textbf{any extra parameters} to a GPT-style LLM architecture, we achieve the same pre-training performance almost twice as fast in text, raw audio, and symbolic music. This is achieved by imposing a structure on intermediate embeddings. When trained for the same number of training steps, we achieve significant gains in performance, which is comparable to pre-training a larger neural architecture. Our architecture allows every next token prediction access to intermediate embeddings at different temporal resolutions in every Transformer decoder block. This work will hopefully pave the way for incorporating multi-rate signal processing ideas into traditional LLM pre-training. Further, we showcase pushing model performance by improving internal structure instead of just going after scale.
- Abstract(参考訳): 大規模言語モデル(LLM)は、あらゆる科学分野や分野に影響を及ぼす人工知能の新たな波を導いてきた。
それらは単純な目的、つまり前のコンテキストに与えられた次のトークンを予測することに基づいて訓練される。
私たちは、テキスト、オーディオ、音楽など、私たちを取り巻くほとんどのデータが、それに関連するマルチスケールな構造を持つ世界に住んでいる。
本稿では,従来の信号処理のアイデアであるウェーブレットを事前学習中にLLMに注入し,その利点を生かした。
GPTスタイルのLLMアーキテクチャに‘textbf{any extra parameters} を追加することなく、テキスト、生のオーディオ、シンボリック音楽の約2倍の速さで事前学習性能を実現する。
これは中間埋め込みに構造を与えることによって達成される。
同じ数のトレーニングステップでトレーニングを行うと、大きなニューラルネットワークアーキテクチャの事前トレーニングに匹敵する、パフォーマンスの大幅な向上を実現します。
我々のアーキテクチャは、Transformerデコーダブロックごとに異なる時間分解能の中間埋め込みへの次のトークン予測アクセスを可能にする。
この作業は、従来のLLM事前学習にマルチレート信号処理のアイデアを組み込むための道を開くことを願っている。
さらに,本研究では,単に規模を拡大するのではなく,内部構造の改善によるモデル性能の向上を示す。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Adaptive Large Language Models By Layerwise Attention Shortcuts [46.76681147411957]
LLMライクなセットアップにより、最終レイヤはアテンションメカニズムを通じて適合すると考えられるすべての中間レイヤに出席することができる。
音響トークン,自然言語,シンボリック音楽の4つの異なるデータセットを紹介し,GPTアーキテクチャの優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-17T03:46:01Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Towards Signal Processing In Large Language Models [46.76681147411957]
本稿では,Large Language Model (LLM) 内で信号処理を適用するという考え方を紹介する。
古典的なフーリエ変換とフーリエ変換のような学習可能な時間周波数表現の並列性を描く。
GPTのようなアーキテクチャでは、より高速な収束を実現し、性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-10T13:51:52Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Simpler is Better: off-the-shelf Continual Learning Through Pretrained
Backbones [0.0]
本稿では,コンピュータビジョン問題の連続学習のためのベースライン(オフザシェルフ)を提案する。
事前訓練されたモデルのパワーを利用して、クラスプロトタイプを計算し、メモリバンクを埋めます。
パイプラインを一般的なCNNモデルと比較し、ビジョントランスフォーマーの優位性を示す。
論文 参考訳(メタデータ) (2022-05-03T16:03:46Z) - Large Scale Audio Understanding without Transformers/ Convolutions/
BERTs/ Mixers/ Attention/ RNNs or .... [4.594159253008448]
本稿では,従来の最先端のニューラルアーキテクチャを使わずに大規模音声理解を実現する方法を提案する。
私たちのアプローチには、コンボリューション、再発、注意、トランスフォーマー、BERTのような他のアプローチはありません。
SimCLRのアプローチに似た分類ヘッド(フィードフォワード層)は、学習された表現に基づいて訓練される。
論文 参考訳(メタデータ) (2021-10-07T05:00:26Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。