論文の概要: The Importance of Positional Encoding Initialization in Transformers for Relational Reasoning
- arxiv url: http://arxiv.org/abs/2406.08272v1
- Date: Wed, 12 Jun 2024 14:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:26:24.136440
- Title: The Importance of Positional Encoding Initialization in Transformers for Relational Reasoning
- Title(参考訳): リレーショナル推論のための変換器における位置符号化初期化の重要性
- Authors: Takuya Ito, Luca Cocchi, Tim Klinger, Parikshit Ram, Murray Campbell, Luke Hearne,
- Abstract要約: トランスフォーマーにおける推論のための位置符号化(PE)を研究する。
学習可能なPEは、他の一般的なPEよりも優れています。
その結果,関係推論タスクにおいて,高い性能,堅牢なPEを学習することの重要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 14.732076081683418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relational reasoning refers to the ability to infer and understand the relations between multiple entities. In humans, this ability underpins many higher cognitive functions, such as problem solving and decision-making, and has been reliably linked to fluid intelligence. Despite machine learning models making impressive advances across various domains, such as natural language processing and vision, the extent to which such models can perform relational reasoning tasks remains unclear. Here we study the importance of positional encoding (PE) for relational reasoning in the Transformer, and find that a learnable PE outperforms all other commonly-used PEs (e.g., absolute, relative, rotary, etc.). Moreover, we find that when using a PE with a learnable parameter, the choice of initialization greatly influences the learned representations and its downstream generalization performance. Specifically, we find that a learned PE initialized from a small-norm distribution can 1) uncover ground-truth position information, 2) generalize in the presence of noisy inputs, and 3) produce behavioral patterns that are consistent with human performance. Our results shed light on the importance of learning high-performing and robust PEs during relational reasoning tasks, which will prove useful for tasks in which ground truth positions are not provided or not known.
- Abstract(参考訳): リレーショナル推論(Relational reasoning)とは、複数のエンティティ間の関係を推論し、理解する能力のこと。
人間では、この能力は問題解決や意思決定など多くの高度な認知機能を支えるものであり、流体知能と確実に結びついている。
自然言語処理やビジョンなど、さまざまな領域で顕著な進歩を遂げた機械学習モデルにもかかわらず、そのようなモデルがリレーショナル推論タスクを実行できる範囲は、まだ不明である。
本稿では、Transformerにおける関係推論における位置符号化(PE)の重要性について検討し、学習可能なPEが他の一般的なPE(例えば、絶対性、相対性、回転性など)よりも優れていることを示す。
さらに,PEを学習可能なパラメータで使用する場合,初期化の選択は学習した表現とその下流の一般化性能に大きな影響を及ぼすことがわかった。
具体的には,小ノルム分布から初期化した学習PEが可能であることを明らかにする。
1) 地筋位置情報を明らかにする。
2)雑音のある入力の存在を一般化し、
3)人間のパフォーマンスと整合した行動パターンを生み出す。
この結果から,関係推論タスクにおける高パフォーマンス・堅牢なPEの学習の重要性が示唆された。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Exploring the Role of Token in Transformer-based Time Series Forecasting [10.081240480138487]
Transformer-based method is a mainstream approach for solve time series forecasting (TSF)
モデル構造を最適化することに集中しており、予測のためのトークンの役割に注意を払う研究はほとんどない。
勾配は、主に正のトークンと呼ばれる予測級数に寄与するトークンに依存する。
T-PEとV-PEを利用するために,トランスフォーマーベースのデュアルブランチフレームワークであるT2B-PEを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:21:39Z) - Natural Language Processing Through Transfer Learning: A Case Study on
Sentiment Analysis [1.14219428942199]
本稿では,感情分析を中心に自然言語処理における伝達学習の可能性について考察する。
その主張は、スクラッチからのトレーニングモデルと比較して、事前訓練されたBERTモデルを使用したトランスファーラーニングは、感情分類の精度を向上できるというものである。
論文 参考訳(メタデータ) (2023-11-28T17:12:06Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - The Locality and Symmetry of Positional Encodings [9.246374019271938]
我々はtextbfBi Masked Language Models (BERT-style) における位置符号化の体系的研究を行う。
PEのコア関数は、局所性と対称性という2つの共通性質を同定することによって明らかにする。
2つの新しい探索タスクを導入し、現在のPEの弱点を定量化する。
論文 参考訳(メタデータ) (2023-10-19T16:15:15Z) - The Impact of Positional Encoding on Length Generalization in
Transformers [50.48278691801413]
復号器のみの変圧器長一般化性能と5つの異なる位置符号化手法との比較を行った。
その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
論文 参考訳(メタデータ) (2023-05-31T00:29:55Z) - SemiGNN-PPI: Self-Ensembling Multi-Graph Neural Network for Efficient
and Generalizable Protein-Protein Interaction Prediction [16.203794286288815]
タンパク質とタンパク質の相互作用(PPI)は様々な生物学的プロセスにおいて重要であり、その研究は薬物開発や疾患の診断に重要な意味を持つ。
既存のディープラーニング手法は、複雑な実世界のシナリオ下での大幅なパフォーマンス劣化に悩まされる。
本稿では,PPIの効率と一般化性を両立させつつ,PPIを効果的に予測できる自己認識型マルチグラフニューラルネットワーク(SemiGNN-PPI)を提案する。
論文 参考訳(メタデータ) (2023-05-15T03:06:44Z) - An Extension to Basis-Hypervectors for Learning from Circular Data in
Hyperdimensional Computing [62.997667081978825]
超次元計算(Hyperdimensional Computing、HDC)は、高次元ランダム空間の性質に基づく計算フレームワークである。
本稿では, 基本超ベクトル集合について検討し, 一般にHDCへの実践的貢献につながっている。
本稿では,HDCを用いた機械学習において,これまでに扱ったことのない重要な情報である円形データから学習する手法を提案する。
論文 参考訳(メタデータ) (2022-05-16T18:04:55Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Measuring Generalization with Optimal Transport [111.29415509046886]
我々は、マージンを最適輸送コストで正規化する、マージンベースの一般化境界を開発する。
我々の境界は、大規模データセット上でトレーニングデータとネットワークパラメータを与えられた一般化誤差を強く予測する。
論文 参考訳(メタデータ) (2021-06-07T03:04:59Z) - More data or more parameters? Investigating the effect of data structure
on generalization [17.249712222764085]
データの特性は、トレーニング例の数とトレーニングパラメータの数の関数としてテストエラーに影響を与えます。
ラベル内のノイズや入力データの強い異方性がテストエラーと同じような役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-03-09T16:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。