論文の概要: Learning positional encodings in transformers depends on initialization
- arxiv url: http://arxiv.org/abs/2406.08272v2
- Date: Fri, 08 Nov 2024 23:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:04:04.238313
- Title: Learning positional encodings in transformers depends on initialization
- Title(参考訳): 変圧器における位置符号化の学習は初期化に依存する
- Authors: Takuya Ito, Luca Cocchi, Tim Klinger, Parikshit Ram, Murray Campbell, Luke Hearne,
- Abstract要約: 入力トークンの非自明な配置に依存する問題に対して,正確なPEを学習することの重要性について検討する。
本研究では,2次元推論タスクと実世界の3Dデータセットを用いて,正確なPEの学習を検証するために解釈可能性解析を適用した。
- 参考スコア(独自算出の注目度): 14.732076081683418
- License:
- Abstract: The attention mechanism is central to the transformer's ability to capture complex dependencies between tokens of an input sequence. Key to the successful application of the attention mechanism in transformers is its choice of positional encoding (PE). The PE provides essential information that distinguishes the position and order amongst tokens in a sequence. Most prior investigations of PE effects on generalization were tailored to 1D input sequences, such as those presented in natural language, where adjacent tokens (e.g., words) are highly related. In contrast, many real world tasks involve datasets with highly non-trivial positional arrangements, such as datasets organized in multiple spatial dimensions, or datasets for which ground truth positions are not known, such as in biological data. Here we study the importance of learning accurate PE for problems which rely on a non-trivial arrangement of input tokens. Critically, we find that the choice of initialization of a learnable PE greatly influences its ability to discover accurate PEs that lead to enhanced generalization. We empirically demonstrate our findings in a 2D relational reasoning task and a real world 3D neuroscience dataset, applying interpretability analyses to verify the learning of accurate PEs. Overall, we find that a learned PE initialized from a small-norm distribution can 1) uncover interpretable PEs that mirror ground truth positions, 2) learn non-trivial and modular PEs in a real-world neuroscience dataset, and 3) lead to improved downstream generalization in both datasets. Importantly, choosing an ill-suited PE can be detrimental to both model interpretability and generalization. Together, our results illustrate the feasibility of discovering accurate PEs for enhanced generalization.
- Abstract(参考訳): 注意機構は、入力シーケンスのトークン間の複雑な依存関係をキャプチャするトランスフォーマーの機能の中心である。
トランスにおけるアテンション機構の応用の成功の鍵は、位置符号化(PE)の選択である。
PEは、シーケンス内のトークンの位置と順序を区別する重要な情報を提供する。
一般化におけるPE効果の以前の研究は、隣接するトークン(eg, words)が高度に関連している自然言語などの1次元入力シーケンスに合わせたものであった。
対照的に、現実世界のタスクの多くは、複数の空間次元で整理されたデータセットや、生物学的データのような基底真理位置が分かっていないデータセットのような、非常に自明な位置配置のデータセットを含む。
本稿では,入力トークンの非自明な配置に依存する問題に対して,正確なPEを学習することの重要性について検討する。
批判的に、学習可能なPEの初期化の選択は、一般化の促進につながる正確なPEを発見する能力に大きな影響を与えている。
本研究では,2次元リレーショナル推論タスクと実世界の3次元神経科学データセットを用いて,正確なPEの学習を検証するために解釈可能性解析を適用した。
全体としては、学習されたPEが小さなノルム分布から初期化できることが分かる。
1)真実の位置を反映する解釈可能なPEを明らかにする。
2)現実世界の神経科学データセットで非自明でモジュラーなPEを学習し、
3) 両方のデータセットにおける下流の一般化の改善につながる。
重要なことは、不適合なPEを選択することは、モデルの解釈可能性と一般化の両方に有害である。
この結果から, 精度の高いPEを発見できる可能性が示唆された。
関連論文リスト
- Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - Generalization Performance of Transfer Learning: Overparameterized and
Underparameterized Regimes [61.22448274621503]
現実世界のアプリケーションでは、タスクは部分的な類似性を示し、あるアスペクトは似ているが、他のアスペクトは異なるか無関係である。
本研究は,パラメータ伝達の2つの選択肢を包含して,多種多様な移動学習について検討する。
一般化性能を向上させるために,共通部分とタスク特化部分の特徴数を決定するための実践的ガイドラインを提供する。
論文 参考訳(メタデータ) (2023-06-08T03:08:40Z) - In-Context Analogical Reasoning with Pre-Trained Language Models [10.344428417489237]
我々は、AIシステムにおけるアナロジーを支援するために、直感的な言語ベースの抽象化の使用について検討する。
具体的には,大規模事前学習言語モデル(PLM)を視覚的Raven's Progressive Matrices(RPM)に適用する。
PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。
論文 参考訳(メタデータ) (2023-05-28T04:22:26Z) - Relate to Predict: Towards Task-Independent Knowledge Representations
for Reinforcement Learning [11.245432408899092]
強化学習は、エージェントが複雑なタスクを学習できるようにする。
知識を解釈し、タスク間で再利用することは難しい。
本稿では,対象中心の知識分離を明示する帰納的バイアスを導入する。
知識分離における明示性の程度は、学習の高速化、精度の向上、一般化の向上、理解可能性の向上と相関していることを示す。
論文 参考訳(メタデータ) (2022-12-10T13:33:56Z) - Contextualization and Generalization in Entity and Relation Extraction [0.0]
本研究では、訓練中に見えない事実への一般化に関する最先端モデルの振る舞いについて検討する。
従来のベンチマークは、トレーニングとモデル評価に使用される言及と関係の間に重要な語彙的重複を示す。
本稿では,トレーニングセットと重複する言及と関連性に基づいて,パフォーマンスを分離するための実証的研究を提案する。
論文 参考訳(メタデータ) (2022-06-15T14:16:42Z) - A Simple but Effective Pluggable Entity Lookup Table for Pre-trained
Language Models [93.39977756450354]
本稿では,シンプルで効果的なPugable Entity Lookup Table (PELT) をオンデマンドで構築することを提案する。
PELTは、事前訓練された言語モデルにエンティティ補足的知識を注入するための入力として、相互に接続することができる。
知識関連タスクの実験により,私たちの手法であるPELTが,関連コーパスからのエンティティ知識をPLMに柔軟かつ効果的に伝達できることが実証された。
論文 参考訳(メタデータ) (2022-02-27T16:30:22Z) - Invariant Feature Learning for Sensor-based Human Activity Recognition [11.334750079923428]
被験者やデバイス間で共有される共通情報を抽出する不変特徴学習フレームワーク(IFLF)を提案する。
実験により、IFLFは、一般的なオープンデータセットと社内データセットをまたいだ主題とデバイスディバージョンの両方を扱うのに効果的であることが示された。
論文 参考訳(メタデータ) (2020-12-14T21:56:17Z) - Relational Neural Machines [19.569025323453257]
本稿では,学習者のパラメータと一階論理に基づく推論を共同で学習するフレームワークを提案する。
ニューラルネットワークは、純粋な準記号学習の場合の古典的な学習結果とマルコフ論理ネットワークの両方を復元することができる。
適切なアルゴリズム解は、大規模な問題において学習と推論が引き出すことができるように考案されている。
論文 参考訳(メタデータ) (2020-02-06T10:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。