論文の概要: Attention in Krylov Space
- arxiv url: http://arxiv.org/abs/2601.07937v1
- Date: Mon, 12 Jan 2026 19:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.910416
- Title: Attention in Krylov Space
- Title(参考訳): クリロフ空間における注意
- Authors: Zihao Qi, Christopher Earls,
- Abstract要約: 本稿では,短い接頭辞からLanczos係数を予測するトランスフォーマーモデルを提案する。
古典系と量子系の両方において、我々の機械学習モデルは、係数と物理観測可能な再構成の両方において適合する。
より小さなシステムでトレーニングし、より大きなシステムの係数を再学習せずに外挿するのに使用することができる。
- 参考スコア(独自算出の注目度): 0.14259046373656994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Universal Operator Growth Hypothesis formulates time evolution of operators through Lanczos coefficients. In practice, however, numerical instability and memory cost limit the number of coefficients that can be computed exactly. In response to these challenges, the standard approach relies on fitting early coefficients to asymptotic forms, but such procedures can miss subleading, history-dependent structures in the coefficients that subsequently affect reconstructed observables. In this work, we treat the Lanczos coefficients as a causal time sequence and introduce a transformer-based model to autoregressively predict future Lanczos coefficients from short prefixes. For both classical and quantum systems, our machine-learning model outperforms asymptotic fits, in both coefficient extrapolation and physical observable reconstruction, by achieving an order-of-magnitude reduction in error. Our model also transfers across system sizes: it can be trained on smaller systems and then be used to extrapolate coefficients on a larger system without retraining. By probing the learned attention patterns and performing targeted attention ablations, we identify which portions of the coefficient history are most influential for accurate forecasts.
- Abstract(参考訳): 普遍作用素成長仮説(Universal Operator Growth hypothesis)は、ランツォ係数による作用素の時間発展を定式化したものである。
しかし実際には、数値不安定性とメモリコストは正確に計算できる係数の数を制限する。
これらの課題に対応するため、標準的なアプローチは、初期の係数を漸近的な形式に適合させることに頼っているが、そのような手順は、後に再構成された可観測物に影響を与える係数の、サブリーディング、履歴に依存した構造を見逃す可能性がある。
本研究では,Lanczos係数を因果時間列として扱い,短い接頭辞から将来のLanczos係数を自動回帰予測するトランスフォーマーモデルを導入する。
古典系と量子系の両方において、我々の機械学習モデルは、誤差のオーダー・オブ・マグニチュード還元を達成することにより、係数外挿と物理観測可能な再構成の両方において、漸近的適合性より優れる。
より小さなシステムでトレーニングし、より大きなシステムの係数を再学習せずに外挿するのに使用することができる。
学習した注意パターンを探索し、目標とする注意改善を行うことにより、係数履歴のどの部分が正確な予測に最も影響を与えるかを特定する。
関連論文リスト
- The Coverage Principle: How Pre-Training Enables Post-Training [70.25788947586297]
予備学習が最終モデルの成功をどう形作るかを検討する。
下流の性能予測におけるカバレッジのパワーを説明するメカニズムを明らかにする。
論文 参考訳(メタデータ) (2025-10-16T17:53:50Z) - A Simple Approximate Bayesian Inference Neural Surrogate for Stochastic Petri Net Models [0.0]
後部分布フレームワークのニューラルネットワークに基づく近似を導入する。
我々のモデルは、Gilespie-simulated SPN realizations上で訓練された1D Convolutional Residual Networkを使用する。
20%の欠落事象を持つ合成SPNでは, RMSE = 0.108で速度関数係数を回復し, 従来のベイズ手法よりもかなり高速に動作する。
論文 参考訳(メタデータ) (2025-07-14T18:31:19Z) - Lost in Retraining: Roaming the Parameter Space of Exponential Families Under Closed-Loop Learning [0.0]
指数族に属するモデルに対する閉ループ学習について検討する。
パラメータの最大確率は、マーチンゲール特性に十分な統計量を与えることを示す。
この結果が,地上の真理モデルから生成された少なくとも1つのデータポイントを含む場合,この結果が防止されることが示唆された。
論文 参考訳(メタデータ) (2025-06-25T17:12:22Z) - Lanczos-Pascal approach to correlation functions in chaotic quantum systems [0.0]
カオス多体系における多体観測器の時間相関関数に対する近似を計算する手法を提案する。
ランツォス係数が滑らかに増大する構造を示す場合、収束がかなり速いことを数値的に発見し分析的に論じる。
論文 参考訳(メタデータ) (2025-03-21T22:05:03Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - The Local Learning Coefficient: A Singularity-Aware Complexity Measure [2.1670528702668648]
深層ニューラルネットワーク(DNN)の新たな複雑性尺度として,局所学習係数(LLC)が導入されている。
本稿では,LLCの理論的基盤を探究し,その応用に関する明確な定義と直感的な洞察を提供する。
最終的に、LLCは、ディープラーニングの複雑さとパーシモニーの原則との明らかな矛盾を和らげる重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T12:55:41Z) - Kalman Filter for Online Classification of Non-Stationary Data [101.26838049872651]
オンライン連続学習(OCL)では、学習システムはデータのストリームを受け取り、予測とトレーニングの手順を順次実行する。
本稿では,線形予測量に対するニューラル表現と状態空間モデルを用いた確率ベイズオンライン学習モデルを提案する。
多クラス分類の実験では、モデルの予測能力と非定常性を捉える柔軟性を示す。
論文 参考訳(メタデータ) (2023-06-14T11:41:42Z) - Modeling High-Dimensional Data with Unknown Cut Points: A Fusion
Penalized Logistic Threshold Regression [2.520538806201793]
従来のロジスティック回帰モデルでは、リンク関数は線形で連続であると見なされることが多い。
我々は、全ての連続した特徴が順序レベルに離散化され、さらにバイナリ応答が決定されるしきい値モデルを考える。
糖尿病のような慢性疾患の早期発見と予知の問題において,ラッソモデルが好適であることが判明した。
論文 参考訳(メタデータ) (2022-02-17T04:16:40Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。