論文の概要: Why self-attention is Natural for Sequence-to-Sequence Problems? A
Perspective from Symmetries
- arxiv url: http://arxiv.org/abs/2210.06741v1
- Date: Thu, 13 Oct 2022 05:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:23:01.784117
- Title: Why self-attention is Natural for Sequence-to-Sequence Problems? A
Perspective from Symmetries
- Title(参考訳): なぜシーケンシャル・ツー・シーケンス問題に自己注意が自然か?
対称性からの視点
- Authors: Chao Ma, Lexing Ying
- Abstract要約: 自己意図に類似した構造は、対称性の観点から多くのシーケンス・ツー・シーケンス問題を学ぶのに自然であることが示される。
本稿では,Seq2seq問題の対象関数を表すのに,自己注意に類似したネットワーク構造が最適であることを示す。
- 参考スコア(独自算出の注目度): 10.39511271647025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we show that structures similar to self-attention are natural
to learn many sequence-to-sequence problems from the perspective of symmetry.
Inspired by language processing applications, we study the orthogonal
equivariance of seq2seq functions with knowledge, which are functions taking
two inputs -- an input sequence and a ``knowledge'' -- and outputting another
sequence. The knowledge consists of a set of vectors in the same embedding
space as the input sequence, containing the information of the language used to
process the input sequence. We show that orthogonal equivariance in the
embedding space is natural for seq2seq functions with knowledge, and under such
equivariance the function must take the form close to the self-attention. This
shows that network structures similar to self-attention are the right
structures to represent the target function of many seq2seq problems. The
representation can be further refined if a ``finite information principle'' is
considered, or a permutation equivariance holds for the elements of the input
sequence.
- Abstract(参考訳): 本稿では,自己着脱と類似する構造は,対称性の観点から多くの系列列問題を学ぶのに自然であることを示す。
言語処理の応用に触発されて、seq2seq関数と知識との直交同分散を、入力シーケンスと`knowledge''という2つの入力を受け取り、別のシーケンスを出力する関数として検討した。
知識は入力シーケンスと同じ埋め込み空間内のベクトルの集合で構成され、入力シーケンスを処理するために使用される言語の情報を含む。
埋め込み空間の直交同値が知識を持つseq2seq函数に対して自然であることを示し、そのような同値の下では、関数は自己注意に近い形式を取る必要がある。
このことは,ネットワーク構造がseq2seq問題の目的関数を表すのに適した構造であることを示す。
この表現は ` `finite information principle''' が考慮されている場合や、置換同値が入力シーケンスの要素に対して成り立つ場合、さらに洗練することができる。
関連論文リスト
- Adversarial Testing as a Tool for Interpretability: Length-based Overfitting of Elementary Functions in Transformers [0.0]
本研究では, シーケンス・ツー・シーケンス変換器の動作を解釈するために, 定義された誤り指標を用いて基本的な編集関数について検討する。
短い列への一般化がしばしば可能であることを示すが、長い列は非常に問題であることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:39:46Z) - Knowledge Graph Embedding by Normalizing Flows [26.732799849307316]
知識グラフ埋め込み(KGE)の鍵は、適切な表現空間(例えば、点右ユークリッド空間と複素ベクトル空間)を選択することである。
グループ理論の観点から,KGE への埋め込みの統一的な視点を提案し,不確実性を導入する。
論文 参考訳(メタデータ) (2024-09-30T06:04:34Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Causal Interpretation of Self-Attention in Pre-Trained Transformers [4.419843514606336]
本稿ではトランスフォーマーニューラルネットワークアーキテクチャにおける自己注意の因果的解釈を提案する。
シンボルの入力シーケンスに対する構造方程式モデルを推定するメカニズムとして自己アテンションを用いる。
本手法は,2つのタスク – 感情分類(NLP)とレコメンデーション – において,トランスフォーマーの結果に対する因果的説明を提供することによって実証する。
論文 参考訳(メタデータ) (2023-10-31T09:27:12Z) - What can a Single Attention Layer Learn? A Study Through the Random
Features Lens [27.197540880103325]
キーベクトル列と個別クエリベクトルを入力として,単一のマルチヘッドアテンション層の学習と一般化について検討する。
このようなランダムな注意層は、鍵ベクトルに不変な置換対象関数の幅広いクラスを表現できることを示す。
論文 参考訳(メタデータ) (2023-07-21T05:05:55Z) - An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文 参考訳(メタデータ) (2022-12-30T17:59:01Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - Luna: Linear Unified Nested Attention [71.66026714473482]
本稿では,2つの重み付き線形注意関数でソフトマックスアテンションを近似する線形統合ネスト型注意機構であるLunaを提案する。
具体的には、第1の注意関数により、Lunaは入力シーケンスを固定長のシーケンスにまとめ、次に、第2の注意関数を使用して充填シーケンスをアンパックする。
従来のアテンション機構と比較して、Lunaは入力として固定長の付加シーケンスとそれに対応する出力を導入し、Lunaはアテンション操作を線形に行うことができる。
論文 参考訳(メタデータ) (2021-06-03T01:47:26Z) - A Functional Perspective on Learning Symmetric Functions with Neural
Networks [48.80300074254758]
本研究では,測定値に基づいて定義されたニューラルネットワークの学習と表現について検討する。
正規化の異なる選択の下で近似と一般化境界を確立する。
得られたモデルは効率よく学習でき、入力サイズにまたがる一般化保証を享受できる。
論文 参考訳(メタデータ) (2020-08-16T16:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。