論文の概要: Are queries and keys always relevant? A case study on Transformer wave functions
- arxiv url: http://arxiv.org/abs/2405.18874v2
- Date: Mon, 13 Jan 2025 15:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:22:47.189512
- Title: Are queries and keys always relevant? A case study on Transformer wave functions
- Title(参考訳): クエリとキーは常に関連しているか? : トランスフォーマー波動関数のケーススタディ
- Authors: Riccardo Rende, Luciano Loris Viteritti,
- Abstract要約: ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The dot product attention mechanism, originally designed for natural language processing tasks, is a cornerstone of modern Transformers. It adeptly captures semantic relationships between word pairs in sentences by computing a similarity overlap between queries and keys. In this work, we explore the suitability of Transformers, focusing on their attention mechanisms, in the specific domain of the parametrization of variational wave functions to approximate ground states of quantum many-body spin Hamiltonians. Specifically, we perform numerical simulations on the two-dimensional $J_1$-$J_2$ Heisenberg model, a common benchmark in the field of quantum many-body systems on lattice. By comparing the performance of standard attention mechanisms with a simplified version that excludes queries and keys, relying solely on positions, we achieve competitive results while reducing computational cost and parameter usage. Furthermore, through the analysis of the attention maps generated by standard attention mechanisms, we show that the attention weights become effectively input-independent at the end of the optimization. We support the numerical results with analytical calculations, providing physical insights of why queries and keys should be, in principle, omitted from the attention mechanism when studying large systems.
- Abstract(参考訳): ドット製品アテンションメカニズムは、元々自然言語処理タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
文中の単語ペア間の意味的関係を、クエリとキー間の類似性を計算することによって、適切にキャプチャする。
本研究では、量子多体スピンハミルトニアンの基底状態に近似する変動波関数のパラメトリゼーションの特定の領域において、トランスフォーマーの適合性について検討する。
具体的には、格子上の量子多体系の分野における一般的なベンチマークである2次元の$J_1$-$J_2$Heisenbergモデルで数値シミュレーションを行う。
標準的なアテンション機構の性能と,クエリやキーを省略した簡易バージョンを比較することで,計算コストとパラメータ使用量の削減を図り,競合する結果が得られる。
さらに,標準アテンション機構によって生成されたアテンションマップの解析により,最適化の終了時に,アテンション重みが効果的に入力非依存となることを示す。
解析計算により解析結果をサポートし、大規模システムの研究において、なぜクエリとキーが注意機構から省略されるのかを物理的に把握する。
関連論文リスト
- A Unified Perspective on the Dynamics of Deep Transformers [24.094975798576783]
深部変圧器によるデータ異方性の進化について検討する。
我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
論文 参考訳(メタデータ) (2025-01-30T13:04:54Z) - Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。
特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。
このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文 参考訳(メタデータ) (2023-11-20T17:35:44Z) - An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文 参考訳(メタデータ) (2022-12-30T17:59:01Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Analytical and experimental study of center line miscalibrations in M\o
lmer-S\o rensen gates [51.93099889384597]
モルマー・ソレンセンエンタングゲートの誤校正パラメータの系統的摂動展開について検討した。
我々はゲート進化演算子を計算し、関連する鍵特性を得る。
我々は、捕捉されたイオン量子プロセッサにおける測定値に対して、モデルからの予測をベンチマークすることで検証する。
論文 参考訳(メタデータ) (2021-12-10T10:56:16Z) - Accurate methods for the analysis of strong-drive effects in parametric
gates [94.70553167084388]
正確な数値と摂動解析手法を用いて効率的にゲートパラメータを抽出する方法を示す。
我々は,$i$SWAP, Control-Z, CNOT など,異なる種類のゲートに対する最適操作条件を同定する。
論文 参考訳(メタデータ) (2021-07-06T02:02:54Z) - Eigen Analysis of Self-Attention and its Reconstruction from Partial
Computation [58.80806716024701]
ドット積に基づく自己注意を用いて計算した注意点のグローバルな構造について検討する。
注意点の変動の大部分は低次元固有空間にあることがわかった。
トークンペアの部分的な部分集合に対してのみスコアを計算し、それを用いて残りのペアのスコアを推定する。
論文 参考訳(メタデータ) (2021-06-16T14:38:42Z) - Adding machine learning within Hamiltonians: Renormalization group
transformations, symmetry breaking and restoration [0.0]
我々は、位相分類のために設計されたニューラルネットワークの予測関数を、系のハミルトニアン内の外部磁場に結合した共役変数として含む。
結果は, 対称性を破り, 復元することで, 秩序相転移を誘導できることを示す。
機械学習と物理をブリッジする上で,この手法がいかに重要なステップを提供するかを論じる。
論文 参考訳(メタデータ) (2020-09-30T18:44:18Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。