論文の概要: Learning positional encodings in transformers depends on initialization
- arxiv url: http://arxiv.org/abs/2406.08272v3
- Date: Fri, 31 Jan 2025 15:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:58:46.888534
- Title: Learning positional encodings in transformers depends on initialization
- Title(参考訳): 変圧器における位置符号化の学習は初期化に依存する
- Authors: Takuya Ito, Luca Cocchi, Tim Klinger, Parikshit Ram, Murray Campbell, Luke Hearne,
- Abstract要約: 位置符号化(PE)は、シーケンス内のトークンの位置と順序を区別する情報を提供する。
一般化におけるPE効果のこれまでの研究は1次元入力シーケンスに合わせたものであった。
本稿では,入力トークンの非自明な配置に依存する問題に対して,正確なPEを学習することの重要性について検討する。
- 参考スコア(独自算出の注目度): 14.732076081683418
- License:
- Abstract: The attention mechanism is central to the transformer's ability to capture complex dependencies between tokens of an input sequence. Key to the successful application of the attention mechanism in transformers is its choice of positional encoding (PE). The PE provides essential information that distinguishes the position and order amongst tokens in a sequence. Most prior investigations of PE effects on generalization were tailored to 1D input sequences, such as those presented in natural language, where adjacent tokens (e.g., words) are highly related. In contrast, many real world tasks involve datasets with highly non-trivial positional arrangements, such as datasets organized in multiple spatial dimensions, or datasets for which ground truth positions are not known, such as in biological data. Here we study the importance of learning accurate PE for problems which rely on a non-trivial arrangement of input tokens. Critically, we find that the choice of initialization of a learnable PE greatly influences its ability to learn accurate PEs that lead to enhanced generalization. We empirically demonstrate our findings in three experiments: 1) A 2D relational reasoning task; 2) A nonlinear stochastic network simulation; 3) A real world 3D neuroscience dataset, applying interpretability analyses to verify the learning of accurate PEs. Overall, we find that a learned PE initialized from a small-norm distribution can 1) uncover interpretable PEs that mirror ground truth positions in multiple dimensions, and 2) lead to improved downstream generalization in empirical evaluations. Importantly, choosing an ill-suited PE can be detrimental to both model interpretability and generalization. Together, our results illustrate the feasibility of learning identifiable and interpretable PEs for enhanced generalization.
- Abstract(参考訳): 注意機構は、入力シーケンスのトークン間の複雑な依存関係をキャプチャするトランスフォーマーの機能の中心である。
トランスにおけるアテンション機構の応用の成功の鍵は、位置符号化(PE)の選択である。
PEは、シーケンス内のトークンの位置と順序を区別する重要な情報を提供する。
一般化におけるPE効果の以前の研究は、隣接するトークン(eg, words)が高度に関連している自然言語などの1次元入力シーケンスに合わせたものであった。
対照的に、現実世界のタスクの多くは、複数の空間次元で整理されたデータセットや、生物学的データのような基底真理位置が分かっていないデータセットのような、非常に自明な位置配置のデータセットを含む。
本稿では,入力トークンの非自明な配置に依存する問題に対して,正確なPEを学習することの重要性について検討する。
批判的なことに,学習可能なPEの初期化の選択は,PEの正確な学習能力に大きな影響を与え,一般化の促進につながっている。
実験の結果を3つの実験で実証した。
1) 2次元関係推論タスク
2)非線形確率ネットワークシミュレーション
3)正確なPEの学習を検証するために解釈可能性分析を適用した実世界の3次元神経科学データセット。
全体としては、学習されたPEが小さなノルム分布から初期化できることが分かる。
1)複数次元の地底真実の位置を映し出す解釈可能なPEを発見し、
2) 経験的評価では, 下流の一般化が向上した。
重要なことは、不適合なPEを選択することは、モデルの解釈可能性と一般化の両方に有害である。
また,本研究の結果から,PEの認識と解釈が一般化に有効であることが示唆された。
関連論文リスト
- Learning Efficient Positional Encodings with Graph Neural Networks [109.8653020407373]
グラフのための学習可能なPEの新しいフレームワークであるPEARLを紹介する。
PEARL は線形複雑性を持つ固有ベクトルの同変関数を近似し、その安定性と高表現力を厳密に確立する。
解析の結果、PEARLは線形複雑度を持つ固有ベクトルの同変関数を近似し、その安定性と高表現能を厳密に確立することを示した。
論文 参考訳(メタデータ) (2025-02-03T07:28:53Z) - Exploring the Role of Token in Transformer-based Time Series Forecasting [10.081240480138487]
Transformer-based method is a mainstream approach for solve time series forecasting (TSF)
モデル構造を最適化することに集中しており、予測のためのトークンの役割に注意を払う研究はほとんどない。
勾配は、主に正のトークンと呼ばれる予測級数に寄与するトークンに依存する。
T-PEとV-PEを利用するために,トランスフォーマーベースのデュアルブランチフレームワークであるT2B-PEを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:21:39Z) - Natural Language Processing Through Transfer Learning: A Case Study on
Sentiment Analysis [1.14219428942199]
本稿では,感情分析を中心に自然言語処理における伝達学習の可能性について考察する。
その主張は、スクラッチからのトレーニングモデルと比較して、事前訓練されたBERTモデルを使用したトランスファーラーニングは、感情分類の精度を向上できるというものである。
論文 参考訳(メタデータ) (2023-11-28T17:12:06Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - The Locality and Symmetry of Positional Encodings [9.246374019271938]
我々はtextbfBi Masked Language Models (BERT-style) における位置符号化の体系的研究を行う。
PEのコア関数は、局所性と対称性という2つの共通性質を同定することによって明らかにする。
2つの新しい探索タスクを導入し、現在のPEの弱点を定量化する。
論文 参考訳(メタデータ) (2023-10-19T16:15:15Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - The Impact of Positional Encoding on Length Generalization in
Transformers [50.48278691801413]
復号器のみの変圧器長一般化性能と5つの異なる位置符号化手法との比較を行った。
その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
論文 参考訳(メタデータ) (2023-05-31T00:29:55Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Measuring Generalization with Optimal Transport [111.29415509046886]
我々は、マージンを最適輸送コストで正規化する、マージンベースの一般化境界を開発する。
我々の境界は、大規模データセット上でトレーニングデータとネットワークパラメータを与えられた一般化誤差を強く予測する。
論文 参考訳(メタデータ) (2021-06-07T03:04:59Z) - More data or more parameters? Investigating the effect of data structure
on generalization [17.249712222764085]
データの特性は、トレーニング例の数とトレーニングパラメータの数の関数としてテストエラーに影響を与えます。
ラベル内のノイズや入力データの強い異方性がテストエラーと同じような役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-03-09T16:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。