Fugu-MT 論文翻訳(概要): Are queries and keys always relevant? A case study on Transformer wave functions

論文の概要: Are queries and keys always relevant? A case study on Transformer wave functions

arxiv url: http://arxiv.org/abs/2405.18874v1
Date: Wed, 29 May 2024 08:32:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 18:09:15.326084
Title: Are queries and keys always relevant? A case study on Transformer wave functions
Title（参考訳）: クエリとキーは常に関連しているか? : トランスフォーマー波動関数のケーススタディ
Authors: Riccardo Rende, Luciano Loris Viteritti,
Abstract要約: ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理(NLP)タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The dot product attention mechanism, originally designed for natural language processing (NLP) tasks, is a cornerstone of modern Transformers. It adeptly captures semantic relationships between word pairs in sentences by computing a similarity overlap between queries and keys. In this work, we explore the suitability of Transformers, focusing on their attention mechanisms, in the specific domain of the parametrization of variational wave functions to approximate ground states of quantum many-body spin Hamiltonians. Specifically, we perform numerical simulations on the two-dimensional $J_1$-$J_2$ Heisenberg model, a common benchmark in the field of quantum-many body systems on lattice. By comparing the performance of standard attention mechanisms with a simplified version that excludes queries and keys, relying solely on positions, we achieve competitive results while reducing computational cost and parameter usage. Furthermore, through the analysis of the attention maps generated by standard attention mechanisms, we show that the attention weights become effectively input-independent at the end of the optimization. We support the numerical results with analytical calculations, providing physical insights of why queries and keys should be, in principle, omitted from the attention mechanism when studying large systems. Interestingly, the same arguments can be extended to the NLP domain, in the limit of long input sentences.
Abstract（参考訳）: ドット製品アテンションメカニズムは、元々自然言語処理(NLP)タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。文中の単語ペア間の意味的関係を、クエリとキー間の類似性を計算することによって、適切にキャプチャする。本研究では、量子多体スピンハミルトニアンの基底状態に近似する変動波関数のパラメトリゼーションの特定の領域において、トランスフォーマーの適合性について検討する。具体的には、格子上の量子量体系の分野における一般的なベンチマークである2次元の$J_1$-$J_2$Heisenbergモデルで数値シミュレーションを行う。標準的な注意機構の性能と、クエリやキーを省略した簡易バージョンを比較し、位置のみに依存することで、計算コストとパラメータ使用量の削減を図り、競合する結果を得る。さらに,標準アテンション機構によって生成されたアテンションマップの解析により,最適化の終了時に,アテンション重みが効果的に入力非依存となることを示す。解析計算により解析結果をサポートし、大規模システムの研究において、なぜクエリとキーが注意機構から省略されるのかを物理的に把握する。興味深いことに、同じ引数を長い入力文の制限で NLP ドメインに拡張することができる。

関連論文リスト

Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文参考訳（メタデータ） (2025-06-17T01:19:28Z)
Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文参考訳（メタデータ） (2025-05-30T12:39:26Z)
A Unified Perspective on the Dynamics of Deep Transformers [24.094975798576783]
深部変圧器によるデータ異方性の進化について検討する。我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
論文参考訳（メタデータ） (2025-01-30T13:04:54Z)
DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文参考訳（メタデータ） (2024-10-07T07:21:49Z)
Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文参考訳（メタデータ） (2023-11-20T17:35:44Z)
Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文参考訳（メタデータ） (2023-07-14T21:01:59Z)
An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。我々は入力トークンの十分かつ最小限の表現の存在を確立する。所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文参考訳（メタデータ） (2022-12-30T17:59:01Z)
How Much Does Attention Actually Attend? Questioning the Importance of Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文参考訳（メタデータ） (2022-11-07T12:37:54Z)
Analytical and experimental study of center line miscalibrations in M\o lmer-S\o rensen gates [51.93099889384597]
モルマー・ソレンセンエンタングゲートの誤校正パラメータの系統的摂動展開について検討した。我々はゲート進化演算子を計算し、関連する鍵特性を得る。我々は、捕捉されたイオン量子プロセッサにおける測定値に対して、モデルからの予測をベンチマークすることで検証する。
論文参考訳（メタデータ） (2021-12-10T10:56:16Z)
Statistically Meaningful Approximation: a Case Study on Approximating Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文参考訳（メタデータ） (2021-07-28T04:28:55Z)
Accurate methods for the analysis of strong-drive effects in parametric gates [94.70553167084388]
正確な数値と摂動解析手法を用いて効率的にゲートパラメータを抽出する方法を示す。我々は,$i$SWAP, Control-Z, CNOT など,異なる種類のゲートに対する最適操作条件を同定する。
論文参考訳（メタデータ） (2021-07-06T02:02:54Z)
Eigen Analysis of Self-Attention and its Reconstruction from Partial Computation [58.80806716024701]
ドット積に基づく自己注意を用いて計算した注意点のグローバルな構造について検討する。注意点の変動の大部分は低次元固有空間にあることがわかった。トークンペアの部分的な部分集合に対してのみスコアを計算し、それを用いて残りのペアのスコアを推定する。
論文参考訳（メタデータ） (2021-06-16T14:38:42Z)
Adding machine learning within Hamiltonians: Renormalization group transformations, symmetry breaking and restoration [0.0]
我々は、位相分類のために設計されたニューラルネットワークの予測関数を、系のハミルトニアン内の外部磁場に結合した共役変数として含む。結果は, 対称性を破り, 復元することで, 秩序相転移を誘導できることを示す。機械学習と物理をブリッジする上で,この手法がいかに重要なステップを提供するかを論じる。
論文参考訳（メタデータ） (2020-09-30T18:44:18Z)
Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。 Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文参考訳（メタデータ） (2020-09-29T21:05:39Z)
Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文参考訳（メタデータ） (2020-06-05T17:09:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。