Fugu-MT 論文翻訳(概要): Increasing transformer token length with a Maximum Entropy Principle Method

論文の概要: Increasing transformer token length with a Maximum Entropy Principle Method

arxiv url: http://arxiv.org/abs/2408.10277v1
Date: Sat, 17 Aug 2024 15:47:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 18:14:26.742055
Title: Increasing transformer token length with a Maximum Entropy Principle Method
Title（参考訳）: 最大エントロピー原理法による変圧器トークン長の増大
Authors: R. I. Cukier,
Abstract要約: トランスフォーマーは、処理されたシーケンスの長さに対する二次的依存の計算オーバーヘッドに悩まされる。本稿では, 変圧器の自己回帰長を延ばすトレーニングと推論/生成の中間段階を付加する3つの手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers suffer from the computational overhead of their quadratic dependence on the length of sequences processed. We present three methods, all adding an intermediate step between training and inference/generation, which extend the autoregressive length of transformers. All rely on a Maximum Entropy Principle (MEP) whereby entropy is maximized in the presence of suitable constraints, accounted for by use of Lagrange Multipliers. These constraint methods extend the autoregressive character from T to 2T tokens in a linear-with-T fashion. There is overhead associated with this added step, but they should still be faster than the standard methods.
Abstract（参考訳）: トランスフォーマーは、処理されたシーケンスの長さに対する二次的依存の計算オーバーヘッドに悩まされる。本稿では, 変圧器の自己回帰長を延ばすトレーニングと推論/生成の中間段階を付加する3つの手法を提案する。全ては最大エントロピー原理 (MEP) に依存しており、エントロピーはラグランジュ乗算器を用いて説明される適切な制約の存在下で最大化される。これらの制約法は、自己回帰文字をTから2Tトークンに線形に拡張する。この追加ステップにはオーバーヘッドがあるが、標準メソッドよりも高速である必要がある。

関連論文リスト

Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文参考訳（メタデータ） (2024-08-23T17:16:43Z)
Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。 MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。 huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文参考訳（メタデータ） (2024-07-22T01:52:30Z)
Higher-Order Transformer Derivative Estimates for Explicit Pathwise Learning Guarantees [9.305677878388664]
本稿では, 変圧器モデルに対するすべての順序の高階微分を正確に推定することにより, 文献のギャップを埋める。我々は,注目ヘッド数,各変圧器ブロックの深さと幅,正規化層数の観点から,すべての定数の完全明示的な推定値を得る。実世界のトランスフォーマーは、1つのマルコフ過程の軌道のサンプルから$O(operatornamepolylog(N/sqrtN)$で学習することができる。
論文参考訳（メタデータ） (2024-05-26T13:19:32Z)
Transformer-based Stagewise Decomposition for Large-Scale Multistage Stochastic Optimization [1.3124513975412255]
本稿では,トランスフォーマーに基づく段階分解アルゴリズムであるTrranSDDPを紹介する。本研究では,値関数の分数次線形近似を効率よく生成することを示す。
論文参考訳（メタデータ） (2024-04-03T09:08:15Z)
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文参考訳（メタデータ） (2024-02-20T10:11:03Z)
Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。提案手法を拡張・結合する新しい手法を提案し,検討する。
論文参考訳（メタデータ） (2024-02-01T19:47:31Z)
Sequence Length Independent Norm-Based Generalization Bounds for Transformers [21.2523248114561]
本稿では,入力シーケンス長に依存しないトランスフォーマーアーキテクチャに対して,ノルムに基づく一般化境界を提供する。変換器のラデマッハ複雑性の上界への有界線型変換の関数クラスに対して、3つの新しい被覆数境界を用いる。
論文参考訳（メタデータ） (2023-10-19T18:31:09Z)
Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文参考訳（メタデータ） (2022-07-05T03:08:27Z)
SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文参考訳（メタデータ） (2021-10-22T17:57:29Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文参考訳（メタデータ） (2020-06-29T17:55:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。