論文の概要: The Importance of Positional Encoding Initialization in Transformers for Relational Reasoning
- arxiv url: http://arxiv.org/abs/2406.08272v1
- Date: Wed, 12 Jun 2024 14:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:26:24.136440
- Title: The Importance of Positional Encoding Initialization in Transformers for Relational Reasoning
- Title(参考訳): リレーショナル推論のための変換器における位置符号化初期化の重要性
- Authors: Takuya Ito, Luca Cocchi, Tim Klinger, Parikshit Ram, Murray Campbell, Luke Hearne,
- Abstract要約: トランスフォーマーにおける推論のための位置符号化(PE)を研究する。
学習可能なPEは、他の一般的なPEよりも優れています。
その結果,関係推論タスクにおいて,高い性能,堅牢なPEを学習することの重要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 14.732076081683418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relational reasoning refers to the ability to infer and understand the relations between multiple entities. In humans, this ability underpins many higher cognitive functions, such as problem solving and decision-making, and has been reliably linked to fluid intelligence. Despite machine learning models making impressive advances across various domains, such as natural language processing and vision, the extent to which such models can perform relational reasoning tasks remains unclear. Here we study the importance of positional encoding (PE) for relational reasoning in the Transformer, and find that a learnable PE outperforms all other commonly-used PEs (e.g., absolute, relative, rotary, etc.). Moreover, we find that when using a PE with a learnable parameter, the choice of initialization greatly influences the learned representations and its downstream generalization performance. Specifically, we find that a learned PE initialized from a small-norm distribution can 1) uncover ground-truth position information, 2) generalize in the presence of noisy inputs, and 3) produce behavioral patterns that are consistent with human performance. Our results shed light on the importance of learning high-performing and robust PEs during relational reasoning tasks, which will prove useful for tasks in which ground truth positions are not provided or not known.
- Abstract(参考訳): リレーショナル推論(Relational reasoning)とは、複数のエンティティ間の関係を推論し、理解する能力のこと。
人間では、この能力は問題解決や意思決定など多くの高度な認知機能を支えるものであり、流体知能と確実に結びついている。
自然言語処理やビジョンなど、さまざまな領域で顕著な進歩を遂げた機械学習モデルにもかかわらず、そのようなモデルがリレーショナル推論タスクを実行できる範囲は、まだ不明である。
本稿では、Transformerにおける関係推論における位置符号化(PE)の重要性について検討し、学習可能なPEが他の一般的なPE(例えば、絶対性、相対性、回転性など)よりも優れていることを示す。
さらに,PEを学習可能なパラメータで使用する場合,初期化の選択は学習した表現とその下流の一般化性能に大きな影響を及ぼすことがわかった。
具体的には,小ノルム分布から初期化した学習PEが可能であることを明らかにする。
1) 地筋位置情報を明らかにする。
2)雑音のある入力の存在を一般化し、
3)人間のパフォーマンスと整合した行動パターンを生み出す。
この結果から,関係推論タスクにおける高パフォーマンス・堅牢なPEの学習の重要性が示唆された。
関連論文リスト
- Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - Generalization Performance of Transfer Learning: Overparameterized and
Underparameterized Regimes [61.22448274621503]
現実世界のアプリケーションでは、タスクは部分的な類似性を示し、あるアスペクトは似ているが、他のアスペクトは異なるか無関係である。
本研究は,パラメータ伝達の2つの選択肢を包含して,多種多様な移動学習について検討する。
一般化性能を向上させるために,共通部分とタスク特化部分の特徴数を決定するための実践的ガイドラインを提供する。
論文 参考訳(メタデータ) (2023-06-08T03:08:40Z) - In-Context Analogical Reasoning with Pre-Trained Language Models [10.344428417489237]
我々は、AIシステムにおけるアナロジーを支援するために、直感的な言語ベースの抽象化の使用について検討する。
具体的には,大規模事前学習言語モデル(PLM)を視覚的Raven's Progressive Matrices(RPM)に適用する。
PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。
論文 参考訳(メタデータ) (2023-05-28T04:22:26Z) - Relate to Predict: Towards Task-Independent Knowledge Representations
for Reinforcement Learning [11.245432408899092]
強化学習は、エージェントが複雑なタスクを学習できるようにする。
知識を解釈し、タスク間で再利用することは難しい。
本稿では,対象中心の知識分離を明示する帰納的バイアスを導入する。
知識分離における明示性の程度は、学習の高速化、精度の向上、一般化の向上、理解可能性の向上と相関していることを示す。
論文 参考訳(メタデータ) (2022-12-10T13:33:56Z) - Contextualization and Generalization in Entity and Relation Extraction [0.0]
本研究では、訓練中に見えない事実への一般化に関する最先端モデルの振る舞いについて検討する。
従来のベンチマークは、トレーニングとモデル評価に使用される言及と関係の間に重要な語彙的重複を示す。
本稿では,トレーニングセットと重複する言及と関連性に基づいて,パフォーマンスを分離するための実証的研究を提案する。
論文 参考訳(メタデータ) (2022-06-15T14:16:42Z) - A Simple but Effective Pluggable Entity Lookup Table for Pre-trained
Language Models [93.39977756450354]
本稿では,シンプルで効果的なPugable Entity Lookup Table (PELT) をオンデマンドで構築することを提案する。
PELTは、事前訓練された言語モデルにエンティティ補足的知識を注入するための入力として、相互に接続することができる。
知識関連タスクの実験により,私たちの手法であるPELTが,関連コーパスからのエンティティ知識をPLMに柔軟かつ効果的に伝達できることが実証された。
論文 参考訳(メタデータ) (2022-02-27T16:30:22Z) - Invariant Feature Learning for Sensor-based Human Activity Recognition [11.334750079923428]
被験者やデバイス間で共有される共通情報を抽出する不変特徴学習フレームワーク(IFLF)を提案する。
実験により、IFLFは、一般的なオープンデータセットと社内データセットをまたいだ主題とデバイスディバージョンの両方を扱うのに効果的であることが示された。
論文 参考訳(メタデータ) (2020-12-14T21:56:17Z) - Relational Neural Machines [19.569025323453257]
本稿では,学習者のパラメータと一階論理に基づく推論を共同で学習するフレームワークを提案する。
ニューラルネットワークは、純粋な準記号学習の場合の古典的な学習結果とマルコフ論理ネットワークの両方を復元することができる。
適切なアルゴリズム解は、大規模な問題において学習と推論が引き出すことができるように考案されている。
論文 参考訳(メタデータ) (2020-02-06T10:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。