論文の概要: Learning positional encodings in transformers depends on initialization
- arxiv url: http://arxiv.org/abs/2406.08272v2
- Date: Fri, 08 Nov 2024 23:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:04:04.238313
- Title: Learning positional encodings in transformers depends on initialization
- Title(参考訳): 変圧器における位置符号化の学習は初期化に依存する
- Authors: Takuya Ito, Luca Cocchi, Tim Klinger, Parikshit Ram, Murray Campbell, Luke Hearne,
- Abstract要約: 入力トークンの非自明な配置に依存する問題に対して,正確なPEを学習することの重要性について検討する。
本研究では,2次元推論タスクと実世界の3Dデータセットを用いて,正確なPEの学習を検証するために解釈可能性解析を適用した。
- 参考スコア(独自算出の注目度): 14.732076081683418
- License:
- Abstract: The attention mechanism is central to the transformer's ability to capture complex dependencies between tokens of an input sequence. Key to the successful application of the attention mechanism in transformers is its choice of positional encoding (PE). The PE provides essential information that distinguishes the position and order amongst tokens in a sequence. Most prior investigations of PE effects on generalization were tailored to 1D input sequences, such as those presented in natural language, where adjacent tokens (e.g., words) are highly related. In contrast, many real world tasks involve datasets with highly non-trivial positional arrangements, such as datasets organized in multiple spatial dimensions, or datasets for which ground truth positions are not known, such as in biological data. Here we study the importance of learning accurate PE for problems which rely on a non-trivial arrangement of input tokens. Critically, we find that the choice of initialization of a learnable PE greatly influences its ability to discover accurate PEs that lead to enhanced generalization. We empirically demonstrate our findings in a 2D relational reasoning task and a real world 3D neuroscience dataset, applying interpretability analyses to verify the learning of accurate PEs. Overall, we find that a learned PE initialized from a small-norm distribution can 1) uncover interpretable PEs that mirror ground truth positions, 2) learn non-trivial and modular PEs in a real-world neuroscience dataset, and 3) lead to improved downstream generalization in both datasets. Importantly, choosing an ill-suited PE can be detrimental to both model interpretability and generalization. Together, our results illustrate the feasibility of discovering accurate PEs for enhanced generalization.
- Abstract(参考訳): 注意機構は、入力シーケンスのトークン間の複雑な依存関係をキャプチャするトランスフォーマーの機能の中心である。
トランスにおけるアテンション機構の応用の成功の鍵は、位置符号化(PE)の選択である。
PEは、シーケンス内のトークンの位置と順序を区別する重要な情報を提供する。
一般化におけるPE効果の以前の研究は、隣接するトークン(eg, words)が高度に関連している自然言語などの1次元入力シーケンスに合わせたものであった。
対照的に、現実世界のタスクの多くは、複数の空間次元で整理されたデータセットや、生物学的データのような基底真理位置が分かっていないデータセットのような、非常に自明な位置配置のデータセットを含む。
本稿では,入力トークンの非自明な配置に依存する問題に対して,正確なPEを学習することの重要性について検討する。
批判的に、学習可能なPEの初期化の選択は、一般化の促進につながる正確なPEを発見する能力に大きな影響を与えている。
本研究では,2次元リレーショナル推論タスクと実世界の3次元神経科学データセットを用いて,正確なPEの学習を検証するために解釈可能性解析を適用した。
全体としては、学習されたPEが小さなノルム分布から初期化できることが分かる。
1)真実の位置を反映する解釈可能なPEを明らかにする。
2)現実世界の神経科学データセットで非自明でモジュラーなPEを学習し、
3) 両方のデータセットにおける下流の一般化の改善につながる。
重要なことは、不適合なPEを選択することは、モデルの解釈可能性と一般化の両方に有害である。
この結果から, 精度の高いPEを発見できる可能性が示唆された。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Exploring the Role of Token in Transformer-based Time Series Forecasting [10.081240480138487]
Transformer-based method is a mainstream approach for solve time series forecasting (TSF)
モデル構造を最適化することに集中しており、予測のためのトークンの役割に注意を払う研究はほとんどない。
勾配は、主に正のトークンと呼ばれる予測級数に寄与するトークンに依存する。
T-PEとV-PEを利用するために,トランスフォーマーベースのデュアルブランチフレームワークであるT2B-PEを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:21:39Z) - Natural Language Processing Through Transfer Learning: A Case Study on
Sentiment Analysis [1.14219428942199]
本稿では,感情分析を中心に自然言語処理における伝達学習の可能性について考察する。
その主張は、スクラッチからのトレーニングモデルと比較して、事前訓練されたBERTモデルを使用したトランスファーラーニングは、感情分類の精度を向上できるというものである。
論文 参考訳(メタデータ) (2023-11-28T17:12:06Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - The Locality and Symmetry of Positional Encodings [9.246374019271938]
我々はtextbfBi Masked Language Models (BERT-style) における位置符号化の体系的研究を行う。
PEのコア関数は、局所性と対称性という2つの共通性質を同定することによって明らかにする。
2つの新しい探索タスクを導入し、現在のPEの弱点を定量化する。
論文 参考訳(メタデータ) (2023-10-19T16:15:15Z) - The Impact of Positional Encoding on Length Generalization in
Transformers [50.48278691801413]
復号器のみの変圧器長一般化性能と5つの異なる位置符号化手法との比較を行った。
その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
論文 参考訳(メタデータ) (2023-05-31T00:29:55Z) - SemiGNN-PPI: Self-Ensembling Multi-Graph Neural Network for Efficient
and Generalizable Protein-Protein Interaction Prediction [16.203794286288815]
タンパク質とタンパク質の相互作用(PPI)は様々な生物学的プロセスにおいて重要であり、その研究は薬物開発や疾患の診断に重要な意味を持つ。
既存のディープラーニング手法は、複雑な実世界のシナリオ下での大幅なパフォーマンス劣化に悩まされる。
本稿では,PPIの効率と一般化性を両立させつつ,PPIを効果的に予測できる自己認識型マルチグラフニューラルネットワーク(SemiGNN-PPI)を提案する。
論文 参考訳(メタデータ) (2023-05-15T03:06:44Z) - An Extension to Basis-Hypervectors for Learning from Circular Data in
Hyperdimensional Computing [62.997667081978825]
超次元計算(Hyperdimensional Computing、HDC)は、高次元ランダム空間の性質に基づく計算フレームワークである。
本稿では, 基本超ベクトル集合について検討し, 一般にHDCへの実践的貢献につながっている。
本稿では,HDCを用いた機械学習において,これまでに扱ったことのない重要な情報である円形データから学習する手法を提案する。
論文 参考訳(メタデータ) (2022-05-16T18:04:55Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Measuring Generalization with Optimal Transport [111.29415509046886]
我々は、マージンを最適輸送コストで正規化する、マージンベースの一般化境界を開発する。
我々の境界は、大規模データセット上でトレーニングデータとネットワークパラメータを与えられた一般化誤差を強く予測する。
論文 参考訳(メタデータ) (2021-06-07T03:04:59Z) - More data or more parameters? Investigating the effect of data structure
on generalization [17.249712222764085]
データの特性は、トレーニング例の数とトレーニングパラメータの数の関数としてテストエラーに影響を与えます。
ラベル内のノイズや入力データの強い異方性がテストエラーと同じような役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-03-09T16:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。