Fugu-MT 論文翻訳(概要): WaveletGPT: Wavelets Meet Large Language Models

論文の概要: WaveletGPT: Wavelets Meet Large Language Models

arxiv url: http://arxiv.org/abs/2409.12924v1
Date: Thu, 3 Oct 2024 09:21:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 12:48:01.430994
Title: WaveletGPT: Wavelets Meet Large Language Models
Title（参考訳）: WaveletGPT: ウェーブレットは大きな言語モデルと出会う
Authors: Prateek Verma,
Abstract要約: 大規模言語モデル(LLM)は、人工知能の新たな進歩の波を支えている。本稿では,従来の信号処理のアイデアであるウェーブレットを事前学習中にLLMに注入し,その利点を生かした。我々は、テキスト、生のオーディオ、シンボリック音楽において、ほぼ2倍の速さで事前学習を行う。
参考スコア（独自算出の注目度）: 1.2328446298523066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have ushered in a new wave of artificial intelligence advancements impacting every scientific field and discipline. They are trained on a simple objective: to predict the next token given the previous context. We live in a world where most of the data around us, e.g., text, audio, and music, has a multi-scale structure associated with it. This paper infuses LLMs with traditional signal processing ideas, namely wavelets, during pre-training to take advantage of the structure. Without adding \textbf{any extra parameters} to a GPT-style LLM architecture, we achieve the same pre-training performance almost twice as fast in text, raw audio, and symbolic music. This is achieved by imposing a structure on intermediate embeddings. When trained for the same number of training steps, we achieve significant gains in performance, which is comparable to pre-training a larger neural architecture. Our architecture allows every next token prediction access to intermediate embeddings at different temporal resolutions in every Transformer decoder block. This work will hopefully pave the way for incorporating multi-rate signal processing ideas into traditional LLM pre-training. Further, we showcase pushing model performance by improving internal structure instead of just going after scale.
Abstract（参考訳）: 大規模言語モデル(LLM)は、あらゆる科学分野や分野に影響を及ぼす人工知能の新たな波を導いてきた。それらは単純な目的、つまり前のコンテキストに与えられた次のトークンを予測することに基づいて訓練される。私たちは、テキスト、オーディオ、音楽など、私たちを取り巻くほとんどのデータが、それに関連するマルチスケールな構造を持つ世界に住んでいる。本稿では,従来の信号処理のアイデアであるウェーブレットを事前学習中にLLMに注入し,その利点を生かした。 GPTスタイルのLLMアーキテクチャに‘textbf{any extra parameters} を追加することなく、テキスト、生のオーディオ、シンボリック音楽の約2倍の速さで事前学習性能を実現する。これは中間埋め込みに構造を与えることによって達成される。同じ数のトレーニングステップでトレーニングを行うと、大きなニューラルネットワークアーキテクチャの事前トレーニングに匹敵する、パフォーマンスの大幅な向上を実現します。我々のアーキテクチャは、Transformerデコーダブロックごとに異なる時間分解能の中間埋め込みへの次のトークン予測アクセスを可能にする。この作業は、従来のLLM事前学習にマルチレート信号処理のアイデアを組み込むための道を開くことを願っている。さらに,本研究では,単に規模を拡大するのではなく,内部構造の改善によるモデル性能の向上を示す。

関連論文リスト

Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers [21.6340059114965]
我々は,コアモデル機能を分離し,評価する制御型合成事前学習タスクを導入する。本フレームワークでは,隣接するトークン間の水平情報流を促進するCANON LAYERSを検出する。これには、Canon層が推論の深さ(例えば、$2times$)を高める方法、推論の幅、知識操作などが含まれる。
論文参考訳（メタデータ） (2025-12-19T08:47:28Z)
Large Language Models Implicitly Learn to See and Hear Just By Reading [61.3564313676731]
テキストトークン上で自動回帰LDMモデルをトレーニングすることにより、テキストモデルは本質的に内部で画像や音声を理解する能力を開発する。本稿では,CIFAR-10とFashion-MNISTの画像分類と画像パッチについて述べる。
論文参考訳（メタデータ） (2025-05-20T22:20:16Z)
Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison [27.44915531637358]
本研究では,高密度機能プリペンディング(DFP)とクロスアテンションアーキテクチャの性能を比較した。 DFPは広く採用されているが,本研究の結果はDFPのクロスアテンションに対する優位性を示すものではない。
論文参考訳（メタデータ） (2025-01-04T20:14:16Z)
Whisper-GPT: A Hybrid Representation Audio Large Language Model [1.2328446298523066]
音声と音楽のための生成的大規模言語モデル(LLM)により,単一アーキテクチャの一部として連続的な音声表現と離散トークンを同時に扱うことができる。我々は,次のトークン予測において,我々のアーキテクチャが難易度と負のログライクなスコアを,音声と音楽のトークンベースのLLMと比較していかに改善するかを示す。
論文参考訳（メタデータ） (2024-12-16T05:03:48Z)
Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文参考訳（メタデータ） (2024-12-06T18:22:59Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文参考訳（メタデータ） (2024-10-10T19:17:56Z)
Adaptive Large Language Models By Layerwise Attention Shortcuts [46.76681147411957]
LLMライクなセットアップにより、最終レイヤはアテンションメカニズムを通じて適合すると考えられるすべての中間レイヤに出席することができる。音響トークン,自然言語,シンボリック音楽の4つの異なるデータセットを紹介し,GPTアーキテクチャの優れた性能を実現する。
論文参考訳（メタデータ） (2024-09-17T03:46:01Z)
Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文参考訳（メタデータ） (2024-06-24T08:43:21Z)
Towards Signal Processing In Large Language Models [46.76681147411957]
本稿では,Large Language Model (LLM) 内で信号処理を適用するという考え方を紹介する。古典的なフーリエ変換とフーリエ変換のような学習可能な時間周波数表現の並列性を描く。 GPTのようなアーキテクチャでは、より高速な収束を実現し、性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-10T13:51:52Z)
Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文参考訳（メタデータ） (2024-04-27T14:43:32Z)
ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文参考訳（メタデータ） (2023-09-28T05:31:07Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Content Adaptive Front End For Audio Classification [1.0435741631709403]
音声信号処理のための学習可能なコンテンツ適応フロントエンドを提案する。我々は、各音声信号を畳み込みフィルタのバンクに通し、それぞれが固定次元ベクトルを与える。
論文参考訳（メタデータ） (2023-03-18T16:09:10Z)
Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文参考訳（メタデータ） (2022-05-10T19:32:20Z)
Simpler is Better: off-the-shelf Continual Learning Through Pretrained Backbones [0.0]
本稿では,コンピュータビジョン問題の連続学習のためのベースライン(オフザシェルフ)を提案する。事前訓練されたモデルのパワーを利用して、クラスプロトタイプを計算し、メモリバンクを埋めます。パイプラインを一般的なCNNモデルと比較し、ビジョントランスフォーマーの優位性を示す。
論文参考訳（メタデータ） (2022-05-03T16:03:46Z)
Large Scale Audio Understanding without Transformers/ Convolutions/ BERTs/ Mixers/ Attention/ RNNs or .... [4.594159253008448]
本稿では,従来の最先端のニューラルアーキテクチャを使わずに大規模音声理解を実現する方法を提案する。私たちのアプローチには、コンボリューション、再発、注意、トランスフォーマー、BERTのような他のアプローチはありません。 SimCLRのアプローチに似た分類ヘッド(フィードフォワード層)は、学習された表現に基づいて訓練される。
論文参考訳（メタデータ） (2021-10-07T05:00:26Z)
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。 ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-07-16T00:19:22Z)
Fully Learnable Deep Wavelet Transform for Unsupervised Monitoring of High-Frequency Time Series [2.7793394375935088]
高周波(HF)信号は産業界に広く存在しており、産業資産の監視に非常に有用である。ほとんどのディープラーニングツールは、固定サイズおよび/または非常に制限された入力用に設計されており、インプット抽出機能として産業的文脈にディープラーニングの応用が成功している。生のHF信号の有意義で疎い表現を抽出できる、完全に監視されていないディープラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-03T14:35:06Z)
Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。 i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文参考訳（メタデータ） (2020-10-11T01:40:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。