論文の概要: Exploring Transformer Extrapolation
- arxiv url: http://arxiv.org/abs/2307.10156v2
- Date: Tue, 19 Dec 2023 08:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 00:09:01.341916
- Title: Exploring Transformer Extrapolation
- Title(参考訳): 変圧器外挿探究
- Authors: Zhen Qin, Yiran Zhong, Hui Deng
- Abstract要約: 長尺外挿は、トレーニングで使用されるものよりも長いシーケンスでトランスフォーマーをテストできるため、近年、かなりの注目を集めている。
従来の研究では、慎重に設計された相対位置コーパスを用いることで、この特性を達成できることが示されている。
本稿では, 数学的および経験的解析により, 長さ外挿が可能なRPEの種類を決定することを試みる。
- 参考スコア(独自算出の注目度): 19.729619149887014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Length extrapolation has attracted considerable attention recently since it
allows transformers to be tested on longer sequences than those used in
training. Previous research has shown that this property can be attained by
using carefully designed Relative Positional Encodings (RPEs). While these
methods perform well on a variety of corpora, the conditions for length
extrapolation have yet to be investigated. This paper attempts to determine
what types of RPEs allow for length extrapolation through a thorough
mathematical and empirical analysis. We discover that a transformer is certain
to possess this property as long as the series that corresponds to the RPE's
exponential converges. Two practices are derived from the conditions and
examined in language modeling tasks on a variety of corpora. As a bonus from
the conditions, we derive a new Theoretical Receptive Field (TRF) to measure
the receptive field of RPEs without taking any training steps. Extensive
experiments are conducted on the Wikitext-103, Books, Github, and WikiBook
datasets to demonstrate the viability of our discovered conditions. We also
compare TRF to Empirical Receptive Field (ERF) across different models, showing
consistently matched trends on the aforementioned datasets. The code is
available at https://github.com/OpenNLPLab/Rpe.
- Abstract(参考訳): 長尺外挿は、トレーニングで使用されるものよりも長いシーケンスでトランスフォーマーをテストできるため、近年注目されている。
従来の研究によれば、この特性はRPE(Relative Positional Encodings)として慎重に設計されている。
これらの方法は様々なコーパスでよく機能するが、長さ外挿条件はまだ検討されていない。
本稿では, 数学的および経験的解析により, 長さ外挿が可能なRPEの種類を決定することを試みる。
変換器は RPE の指数収束に対応する級数さえあれば、この性質を持つことは確実である。
2つのプラクティスは条件から導き出され、様々なコーパスの言語モデリングタスクで検討されている。
条件からのボーナスとして、rpesの受容場を測定するための新しい理論受容場(trf)を、トレーニングステップを踏まずに導出する。
Wikitext-103, Books, Github, WikiBookのデータセットを用いて, 発見された条件の生存可能性を示す実験を行った。
また、TRFとERF(Empirical Receptive Field)を異なるモデルで比較し、上記のデータセット上で一貫して一致する傾向を示す。
コードはhttps://github.com/opennlplab/rpeで入手できる。
関連論文リスト
- Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Tilt your Head: Activating the Hidden Spatial-Invariance of Classifiers [0.7704032792820767]
ディープニューラルネットワークは、日々の生活の多くの領域に適用されている。
これらは、空間的に変換された入力信号に頑健に対処するなど、依然として必須の能力が欠如している。
本稿では,ニューラルネットの推論過程をエミュレートする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T09:47:29Z) - Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding [40.289596031245374]
大型言語モデル(LLM)を含むトランスフォーマーベースのモデルは全て、プリセットされた長さ制限に悩まされる。
トランスフォーマーの長さ外挿を強化するために多くの方法が出現している。
本調査は,読者が既存の手法を深く理解し,今後の研究に刺激を与えることを目的としている。
論文 参考訳(メタデータ) (2023-12-28T14:42:24Z) - Generative Modeling of Regular and Irregular Time Series Data via Koopman VAEs [50.25683648762602]
モデルの新しい設計に基づく新しい生成フレームワークであるKoopman VAEを紹介する。
クープマン理論に触発され、線形写像を用いて潜在条件事前力学を表現する。
KoVAEは、いくつかの挑戦的な合成および実世界の時系列生成ベンチマークにおいて、最先端のGANおよびVAEメソッドより優れている。
論文 参考訳(メタデータ) (2023-10-04T07:14:43Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Rethink Long-tailed Recognition with Vision Transformers [18.73285611631722]
ビジョントランスフォーマー(ViT)は、長い尾のデータでトレーニングするのが難しい。
ViTは教師なしの方法で一般化された特徴を学習する。
予測分布(英: Predictive Distribution、PDC)は、長手認識のための新しい指標である。
論文 参考訳(メタデータ) (2023-02-28T03:36:48Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Causal Transformer for Estimating Counterfactual Outcomes [18.640006398066188]
多くのアプリケーションでは、観測データから時間とともに反現実的な結果を予測することが重要となる。
我々は、時間とともに反現実的な結果を予測するための新しい因果変換器を開発した。
私たちのモデルは、時間によって異なる共同設立者間の複雑な長距離依存関係をキャプチャするために特別に設計されています。
論文 参考訳(メタデータ) (2022-04-14T22:40:09Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Interpretable Feature Construction for Time Series Extrinsic Regression [0.028675177318965035]
一部のアプリケーション領域では、対象変数が数値であり、その問題は時系列外部回帰(TSER)として知られている。
TSERの文脈における頑健で解釈可能な特徴構築と選択のためのベイズ法の拡張を提案する。
私たちのアプローチは、TSERに取り組むためのリレーショナルな方法を利用します:(i)、リレーショナルデータスキームに格納されている時系列の多様で単純な表現を構築し、(ii)二次テーブルからデータを「フラット化」するために解釈可能な機能を構築するためにプロポジション化技術を適用します。
論文 参考訳(メタデータ) (2021-03-15T08:12:19Z) - Fork or Fail: Cycle-Consistent Training with Many-to-One Mappings [67.11712279612583]
サイクル一貫性トレーニングは、2つの関心領域間の前方および逆マッピングの学習に広く用いられている。
我々は条件付き変分オートエンコーダ(cvae)アプローチを開発し、これは全射写像を暗黙の単射に変換するものと見なすことができる。
私たちのパイプラインは、グラフからテキストへの多様性を促進しながら、サイクルトレーニング中に多くのマッピングをキャプチャできます。
論文 参考訳(メタデータ) (2020-12-14T10:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。