論文の概要: Are queries and keys always relevant? A case study on Transformer wave functions
- arxiv url: http://arxiv.org/abs/2405.18874v1
- Date: Wed, 29 May 2024 08:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:09:15.326084
- Title: Are queries and keys always relevant? A case study on Transformer wave functions
- Title(参考訳): クエリとキーは常に関連しているか? : トランスフォーマー波動関数のケーススタディ
- Authors: Riccardo Rende, Luciano Loris Viteritti,
- Abstract要約: ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理(NLP)タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dot product attention mechanism, originally designed for natural language processing (NLP) tasks, is a cornerstone of modern Transformers. It adeptly captures semantic relationships between word pairs in sentences by computing a similarity overlap between queries and keys. In this work, we explore the suitability of Transformers, focusing on their attention mechanisms, in the specific domain of the parametrization of variational wave functions to approximate ground states of quantum many-body spin Hamiltonians. Specifically, we perform numerical simulations on the two-dimensional $J_1$-$J_2$ Heisenberg model, a common benchmark in the field of quantum-many body systems on lattice. By comparing the performance of standard attention mechanisms with a simplified version that excludes queries and keys, relying solely on positions, we achieve competitive results while reducing computational cost and parameter usage. Furthermore, through the analysis of the attention maps generated by standard attention mechanisms, we show that the attention weights become effectively input-independent at the end of the optimization. We support the numerical results with analytical calculations, providing physical insights of why queries and keys should be, in principle, omitted from the attention mechanism when studying large systems. Interestingly, the same arguments can be extended to the NLP domain, in the limit of long input sentences.
- Abstract(参考訳): ドット製品アテンションメカニズムは、元々自然言語処理(NLP)タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
文中の単語ペア間の意味的関係を、クエリとキー間の類似性を計算することによって、適切にキャプチャする。
本研究では、量子多体スピンハミルトニアンの基底状態に近似する変動波関数のパラメトリゼーションの特定の領域において、トランスフォーマーの適合性について検討する。
具体的には、格子上の量子量体系の分野における一般的なベンチマークである2次元の$J_1$-$J_2$Heisenbergモデルで数値シミュレーションを行う。
標準的な注意機構の性能と、クエリやキーを省略した簡易バージョンを比較し、位置のみに依存することで、計算コストとパラメータ使用量の削減を図り、競合する結果を得る。
さらに,標準アテンション機構によって生成されたアテンションマップの解析により,最適化の終了時に,アテンション重みが効果的に入力非依存となることを示す。
解析計算により解析結果をサポートし、大規模システムの研究において、なぜクエリとキーが注意機構から省略されるのかを物理的に把握する。
興味深いことに、同じ引数を長い入力文の制限で NLP ドメインに拡張することができる。
関連論文リスト
- Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。
特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。
このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文 参考訳(メタデータ) (2023-11-20T17:35:44Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文 参考訳(メタデータ) (2022-12-30T17:59:01Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Analytical and experimental study of center line miscalibrations in M\o
lmer-S\o rensen gates [51.93099889384597]
モルマー・ソレンセンエンタングゲートの誤校正パラメータの系統的摂動展開について検討した。
我々はゲート進化演算子を計算し、関連する鍵特性を得る。
我々は、捕捉されたイオン量子プロセッサにおける測定値に対して、モデルからの予測をベンチマークすることで検証する。
論文 参考訳(メタデータ) (2021-12-10T10:56:16Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - Accurate methods for the analysis of strong-drive effects in parametric
gates [94.70553167084388]
正確な数値と摂動解析手法を用いて効率的にゲートパラメータを抽出する方法を示す。
我々は,$i$SWAP, Control-Z, CNOT など,異なる種類のゲートに対する最適操作条件を同定する。
論文 参考訳(メタデータ) (2021-07-06T02:02:54Z) - Eigen Analysis of Self-Attention and its Reconstruction from Partial
Computation [58.80806716024701]
ドット積に基づく自己注意を用いて計算した注意点のグローバルな構造について検討する。
注意点の変動の大部分は低次元固有空間にあることがわかった。
トークンペアの部分的な部分集合に対してのみスコアを計算し、それを用いて残りのペアのスコアを推定する。
論文 参考訳(メタデータ) (2021-06-16T14:38:42Z) - Adding machine learning within Hamiltonians: Renormalization group
transformations, symmetry breaking and restoration [0.0]
我々は、位相分類のために設計されたニューラルネットワークの予測関数を、系のハミルトニアン内の外部磁場に結合した共役変数として含む。
結果は, 対称性を破り, 復元することで, 秩序相転移を誘導できることを示す。
機械学習と物理をブリッジする上で,この手法がいかに重要なステップを提供するかを論じる。
論文 参考訳(メタデータ) (2020-09-30T18:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。