論文の概要: Generalized Attention Mechanism and Relative Position for Transformer
- arxiv url: http://arxiv.org/abs/2208.10247v1
- Date: Sun, 24 Jul 2022 00:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-28 22:33:45.412131
- Title: Generalized Attention Mechanism and Relative Position for Transformer
- Title(参考訳): 変圧器の一般注意機構と相対位置
- Authors: R. V. R. Pandya
- Abstract要約: 本稿では,GAMを形成するアテンション機構の異なる変種について記述する。
また,GAMの枠組み内での相対的位置表現についても提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose generalized attention mechanism (GAM) by first
suggesting a new interpretation for self-attention mechanism of Vaswani et al.
. Following the interpretation, we provide description for different variants
of attention mechanism which together form GAM. Further, we propose a new
relative position representation within the framework of GAM. This
representation can be easily utilized for cases in which elements next to each
other in input sequence can be at random locations in actual dataset/corpus.
- Abstract(参考訳): 本稿では,Vaswaniらによる自己注意機構の新しい解釈を提案することによって,GAM(Generalized attention mechanism)を提案する。
.
解釈の後、我々はGAMを形成する異なる注意機構の変種について記述する。
さらに,gamの枠組みにおける新たな相対的位置表現を提案する。
この表現は、入力シーケンス内の隣り合う要素が実際のデータセット/コーパスのランダムな位置にある場合に容易に利用できる。
関連論文リスト
- Generalized Probabilistic Attention Mechanism in Transformers [0.0]
GPAM(Generalized Probabilistic attention mechanism)と呼ばれる新しい注意機構を導入する。
従来のアテンション機構とは異なり、GPAMは固定総和を保持しながら負のアテンションスコアを許容する。
提案した二重注意GPAMは,ランク崩壊問題と勾配消滅問題の両方を効果的に緩和する理論的証拠を提供する。
論文 参考訳(メタデータ) (2024-10-21T01:55:52Z) - Remarks on the quasi-position representation in models of generalized
uncertainty principle [0.0]
このノートは1次元モデルの研究で頻繁に使われる準位表現の特定の側面を解明することを目的としている。
最近の主張とは対照的に、(i)準ポジション作用素は非エルミート的でも物理的意義を持つことができ、(ii)準ポジション表現において、位置に関連する作用素は準ポジション座標上の微分作用素として振る舞う。
論文 参考訳(メタデータ) (2023-06-20T11:46:56Z) - A Mechanism for Sample-Efficient In-Context Learning for Sparse
Retrieval Tasks [29.764014766305174]
事前学習プロセスと下流タスクに対して,適切な仮定でトランスフォーマーモデルがICLを実行可能であることを示す。
本手法は, トランス機構を用いて実装可能であることを確認した。
論文 参考訳(メタデータ) (2023-05-26T15:49:43Z) - Reusable Slotwise Mechanisms [45.48002329758044]
スロット間の通信を利用してオブジェクトのダイナミクスをモデル化するフレームワークであるReusable Slotwise Mechanisms(RCM)を紹介する。
RSMはCCI(Central Contextual Information)を活用し、選択したメカニズムが残りのスロットにアクセスできるようにする。
実験により, 最先端手法と比較してRCMの優れた性能が示された。
論文 参考訳(メタデータ) (2023-02-21T08:07:27Z) - An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文 参考訳(メタデータ) (2022-12-30T17:59:01Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。