Fugu-MT 論文翻訳(概要): TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

論文の概要: TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

arxiv url: http://arxiv.org/abs/2410.23168v1
Date: Wed, 30 Oct 2024 16:19:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.420046
Title: TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters
Title（参考訳）: TokenFormer: トークン化モデルパラメータによるトランスフォーマースケーリングの再考
Authors: Haiyang Wang, Yue Fan, Muhammad Ferjad Naeem, Yongqin Xian, Jan Eric Lenssen, Liwei Wang, Federico Tombari, Bernt Schiele,
Abstract要約: TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
参考スコア（独自算出の注目度）: 102.1116808722299
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers have become the predominant architecture in foundation models due to their excellent performance across various domains. However, the substantial cost of scaling these models remains a significant concern. This problem arises primarily from their dependence on a fixed number of parameters within linear projections. When architectural modifications (e.g., channel dimensions) are introduced, the entire model typically requires retraining from scratch. As model sizes continue growing, this strategy results in increasingly high computational costs and becomes unsustainable. To overcome this problem, we introduce TokenFormer, a natively scalable architecture that leverages the attention mechanism not only for computations among input tokens but also for interactions between tokens and model parameters, thereby enhancing architectural flexibility. By treating model parameters as tokens, we replace all the linear projections in Transformers with our token-parameter attention layer, where input tokens act as queries and model parameters as keys and values. This reformulation allows for progressive and efficient scaling without necessitating retraining from scratch. Our model scales from 124M to 1.4B parameters by incrementally adding new key-value parameter pairs, achieving performance comparable to Transformers trained from scratch while greatly reducing training costs. Code and models are available at \url{https://github.com/Haiyang-W/TokenFormer}.
Abstract（参考訳）: トランスフォーマーは、様々な領域にまたがる優れたパフォーマンスのため、基礎モデルにおいて主要なアーキテクチャとなっている。しかし、これらのモデルをスケールするためのかなりのコストは、依然として大きな懸念事項である。この問題は、主に線形射影内の固定された数のパラメータに依存することから生じる。アーキテクチャの変更(例えばチャネル次元)が導入された場合、モデル全体がスクラッチから再トレーニングを必要とします。モデルのサイズが大きくなるにつれて、この戦略はますます高い計算コストをもたらし、持続不可能となる。 TokenFormerは、入力トークン間の計算だけでなく、トークンとモデルパラメータ間の相互作用にも注目の仕組みを活用し、アーキテクチャの柔軟性を向上させる。モデルパラメータをトークンとして扱うことで、Transformer内のすべての線形プロジェクションをトークンパラメータアテンション層に置き換えます。この改革により、スクラッチから再トレーニングを必要とせずに、進歩的で効率的なスケーリングが可能になる。我々のモデルは、新しいキー値パラメータペアをインクリメンタルに追加し、スクラッチからトレーニングされたトランスフォーマーに匹敵するパフォーマンスを実現し、トレーニングコストを大幅に削減することで、124Mから1.4Bパラメータにスケールします。コードとモデルは \url{https://github.com/Haiyang-W/TokenFormer} で公開されている。

関連論文リスト

Hyperparameter Transfer with Mixture-of-Expert Layers [51.03005470884366]
現代のニューラルネットワークをスケールアップするための重要なツールとして、Mixture-of-Experts(MoE)層が登場した。モデル幅,深さ,専門家の数,(隠れた)サイズを拡大する際,MoE層を有するトランスフォーマーモデルのパラメータ化を提案する。
論文参考訳（メタデータ） (2026-01-28T03:02:30Z)
Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文参考訳（メタデータ） (2025-09-08T17:58:06Z)
Efficient Language Modeling for Low-Resource Settings with Hybrid RNN-Transformer Architectures [8.442206285783463]
トランスフォーマーベースの言語モデルは、最近テキスト生成における活発な研究の最前線にある。これらのモデルの進歩は、数十億のパラメータ数とペタフロップ/秒単位の計算要求によって、禁止的なトレーニングコストの価格で実現されている。注目層をフィードフォワードと準リカレントニューラルネットワーク層に選択的に置き換えることで,低データ方式におけるモデル性能向上のためのトランスフォーマーアーキテクチャについて検討する。
論文参考訳（メタデータ） (2025-02-02T01:05:09Z)
Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。 RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文参考訳（メタデータ） (2025-01-20T16:46:26Z)
ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文参考訳（メタデータ） (2024-11-11T16:45:18Z)
ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model [9.1108256816605]
大規模言語モデル(LLM)のトークン化機能を置き換えることにより,モデル表現と処理効率を向上させる手法を提案する。本手法は,トークン化器を置き換えたモデルの性能を維持しつつ,長文の復号速度を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-06T03:01:07Z)
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。 Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-08-19T17:48:11Z)
Are Self-Attentions Effective for Time Series Forecasting? [4.990206466948269]
時系列予測は、複数のドメインやさまざまなシナリオにわたるアプリケーションにとって不可欠である。近年の研究では、より単純な線形モデルは、複雑なトランスフォーマーベースのアプローチよりも優れていることが示されている。我々は、新しいアーキテクチャ、クロスアテンションのみの時系列変換器(CATS)を導入する。提案モデルでは,平均二乗誤差が最小であり,既存のモデルに比べてパラメータが少ないため,性能が向上する。
論文参考訳（メタデータ） (2024-05-27T06:49:39Z)
MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。 2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。 8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文参考訳（メタデータ） (2023-06-15T10:48:59Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Revision Transformers: Instructing Language Models to Change their Values [21.645935518842744]
現在のトランスフォーマー言語モデル(LM)は数十億のパラメータを持つ大規模モデルである。モデル更新を容易にするリビジョントランス (RiT) を提案する。明確に構造化されたリビジョンエンジンで世界知識を拡散的に符号化する大規模な事前学習型LMの特定の組み合わせにより、モデルの知識をほとんど努力せずに更新し、ユーザーインタラクションの助けを借りることができる。
論文参考訳（メタデータ） (2022-10-19T07:05:06Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文参考訳（メタデータ） (2021-01-11T16:11:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。