論文の概要: Learning to Encode Position for Transformer with Continuous Dynamical
Model
- arxiv url: http://arxiv.org/abs/2003.09229v1
- Date: Fri, 13 Mar 2020 00:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 00:55:34.962048
- Title: Learning to Encode Position for Transformer with Continuous Dynamical
Model
- Title(参考訳): 連続力学モデルを用いた変圧器の位置符号化の学習
- Authors: Xuanqing Liu, Hsiang-Fu Yu, Inderjit Dhillon, Cho-Jui Hsieh
- Abstract要約: 本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
- 参考スコア(独自算出の注目度): 88.69870971415591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new way of learning to encode position information for
non-recurrent models, such as Transformer models. Unlike RNN and LSTM, which
contain inductive bias by loading the input tokens sequentially, non-recurrent
models are less sensitive to position. The main reason is that position
information among input units is not inherently encoded, i.e., the models are
permutation equivalent; this problem justifies why all of the existing models
are accompanied by a sinusoidal encoding/embedding layer at the input. However,
this solution has clear limitations: the sinusoidal encoding is not flexible
enough as it is manually designed and does not contain any learnable
parameters, whereas the position embedding restricts the maximum length of
input sequences. It is thus desirable to design a new position layer that
contains learnable parameters to adjust to different datasets and different
architectures. At the same time, we would also like the encodings to
extrapolate in accordance with the variable length of inputs. In our proposed
solution, we borrow from the recent Neural ODE approach, which may be viewed as
a versatile continuous version of a ResNet. This model is capable of modeling
many kinds of dynamical systems. We model the evolution of encoded results
along position index by such a dynamical system, thereby overcoming the above
limitations of existing methods. We evaluate our new position layers on a
variety of neural machine translation and language understanding tasks, the
experimental results show consistent improvements over the baselines.
- Abstract(参考訳): 本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
入力トークンを順次ロードすることで誘導バイアスを含むRNNやLSTMとは異なり、非リカレントモデルは位置に対する感度が低い。
主な理由は、入力単位間の位置情報が本質的に符号化されていないこと、すなわち、モデルが置換等価であることであり、この問題は、既存のモデルが入力に正弦波符号化/埋め込み層を伴っている理由を正当化する。
しかし、この解には明確な制限がある: 正弦波符号化は手動で設計され、学習可能なパラメータは含まないが、位置埋め込みは入力シーケンスの最大長を制限する。
したがって、異なるデータセットと異なるアーキテクチャに適応するために学習可能なパラメータを含む新しい位置層を設計することが望ましい。
同時に、エンコーディングは入力の可変長に応じて外挿されることも望みます。
提案するソリューションでは、最近のneural odeアプローチを借用し、resnetの汎用的な継続的バージョンと見なすことができます。
このモデルは様々な力学系をモデル化することができる。
このような動的システムによる位置指数に沿った符号化結果の進化をモデル化し,既存の手法の限界を克服する。
ニューラルネットワーク翻訳および言語理解タスクにおける新しい位置層の評価を行い,実験結果からベースラインよりも一貫した改善が得られた。
関連論文リスト
- Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models [6.809572275782338]
我々は,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論を開発し,公式を提供する。
我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
論文 参考訳(メタデータ) (2024-03-14T17:59:14Z) - Neural Functional Transformers [99.98750156515437]
本稿では,ニューラルファンクショナルトランスフォーマー (NFT) と呼ばれる新しい変分同変量空間層を定義するために,アテンション機構を用いる。
NFTは重み空間の置換対称性を尊重し、注意の利点を取り入れ、複数の領域で顕著な成功を収めた。
Inr2Arrayは暗黙的ニューラル表現(INR)の重みから置換不変表現を計算する新しい方法である。
論文 参考訳(メタデータ) (2023-05-22T23:38:27Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Transformer Language Models without Positional Encodings Still Learn
Positional Information [45.42248458957122]
明確な位置エンコーディングのないトランスフォーマー言語モデルは、標準モデルと競合する。
因果的注意により、各トークンが出席できる前任者の数を推測することができ、従って絶対的な位置を近似することができると推測する。
論文 参考訳(メタデータ) (2022-03-30T19:37:07Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Embedded methods for feature selection in neural networks [0.0]
ニューラルネットワークのようなブラックボックスモデルは、解釈可能性、一般化可能性、これらのモデルのトレーニング時間に悪影響を及ぼす。
パラメータ学習に直接組み込むことのできる特徴選択のための2つの統合的アプローチを提案する。
PFI(Permutation Feature Importance) - 汎用的な特徴ランキング法とランダムなベースライン。
論文 参考訳(メタデータ) (2020-10-12T16:33:46Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。