論文の概要: Learning long range dependencies through time reversal symmetry breaking
- arxiv url: http://arxiv.org/abs/2506.05259v1
- Date: Thu, 05 Jun 2025 17:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.844836
- Title: Learning long range dependencies through time reversal symmetry breaking
- Title(参考訳): 時間反転対称性の破れによる長距離依存の学習
- Authors: Guillaume Pourcel, Maxence Ernoult,
- Abstract要約: ディープステート宇宙モデル(SSM)は、RNNを力学系に組み込むことができるため、物理基底計算パラダイムを定式化する。
本稿では,非散逸的なハミルトン系の物理的軌跡の有限差として損失を確実に計算するアルゴリズムであるRecurrent Hamiltonian Echo Learning (RHEL)を提案する。
我々は,中間範囲から長距離の分類や,シーケンス長が$sim 50k$に達するレグレッションなど,さまざまな時系列タスクに対して,線形および非線形ダイナミクスのHSSMを訓練する。
- 参考スコア(独自算出の注目度): 1.800676987432211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep State Space Models (SSMs) reignite physics-grounded compute paradigms, as RNNs could natively be embodied into dynamical systems. This calls for dedicated learning algorithms obeying to core physical principles, with efficient techniques to simulate these systems and guide their design. We propose Recurrent Hamiltonian Echo Learning (RHEL), an algorithm which provably computes loss gradients as finite differences of physical trajectories of non-dissipative, Hamiltonian systems. In ML terms, RHEL only requires three "forward passes" irrespective of model size, without explicit Jacobian computation, nor incurring any variance in the gradient estimation. Motivated by the physical realization of our algorithm, we first introduce RHEL in continuous time and demonstrate its formal equivalence with the continuous adjoint state method. To facilitate the simulation of Hamiltonian systems trained by RHEL, we propose a discrete-time version of RHEL which is equivalent to Backpropagation Through Time (BPTT) when applied to a class of recurrent modules which we call Hamiltonian Recurrent Units (HRUs). This setting allows us to demonstrate the scalability of RHEL by generalizing these results to hierarchies of HRUs, which we call Hamiltonian SSMs (HSSMs). We apply RHEL to train HSSMs with linear and nonlinear dynamics on a variety of time-series tasks ranging from mid-range to long-range classification and regression with sequence length reaching $\sim 50k$. We show that RHEL consistently matches the performance of BPTT across all models and tasks. This work opens new doors for the design of scalable, energy-efficient physical systems endowed with self-learning capabilities for sequence modelling.
- Abstract(参考訳): ディープ・ステート・スペース・モデル(SSM)は物理基底計算パラダイムを定式化し、RNNを動的システムにネイティブに組み込むことができる。
これは、これらのシステムをシミュレートし、設計をガイドする効率的な技術を備えた、中核的な物理原理に従う専用の学習アルゴリズムを要求する。
リカレントハミルトンエコー学習(Recurrent Hamiltonian Echo Learning, RHEL)は、非散逸性ハミルトン系の物理軌道の有限差として損失勾配を確実に計算するアルゴリズムである。
MLの用語では、RHELはモデルのサイズに関わらず、3つの「前方通過」しか必要とせず、ヤコビアン計算を明示せず、勾配推定のばらつきも生じない。
アルゴリズムの物理的実現により、まずRHELを連続的に導入し、連続随伴状態法と形式的同値性を示す。
RHELにより訓練されたハミルトン系のシミュレーションを容易にするため、HHELの離散時間版を、HHEL(Hachian Recurrent Units)と呼ぶ反復モジュールのクラスに適用した場合、BPTT(Backproagation Through Time)と等価に提案する。
この設定により、これらの結果をHRUの階層に一般化することで、RHELのスケーラビリティを実証することができる。
我々はRHELを適用し,線形および非線形のダイナミックスを持つHSSMを,中距離から長距離の分類や,シーケンス長が$\sim 50k$に達するレグレッションといった様々な時系列タスクで訓練する。
RHELは全てのモデルとタスクでBPTTの性能と一貫して一致していることを示す。
この研究は、シークエンスモデリングのための自己学習能力を備えたスケーラブルでエネルギー効率の良い物理システムの設計のための新しい扉を開く。
関連論文リスト
- Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Emergence in non-neural models: grokking modular arithmetic via average gradient outer product [16.911836722312152]
グラッキングはニューラルネットワークや勾配降下に基づく最適化に特有ではないことを示す。
この現象はRecursive Feature Machinesを用いてモジュラー算術を学習する際に発生する。
この結果から,タスク関連の特徴を学習することで,創発が純粋に引き起こされることが示された。
論文 参考訳(メタデータ) (2024-07-29T17:28:58Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Symbolic Regression on FPGAs for Fast Machine Learning Inference [2.0920303420933273]
高エネルギー物理コミュニティは、FPGA(Field-Programmable Gate Arrays)上に機械学習ベースのソリューションをデプロイする可能性を探っている
シンボリックレグレッション(SR)と呼ばれる機械学習技術を利用した新しいエンドツーエンドプロシージャを提案する。
提案手法は,最大で5 nsまでの実行時間を最大13倍に抑えながら,90%以上の近似精度を維持した推論モデルを用いて3層ニューラルネットワークを近似できることを示す。
論文 参考訳(メタデータ) (2023-05-06T17:04:02Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Reverse engineering recurrent neural networks with Jacobian switching
linear dynamical systems [24.0378100479104]
リカレントニューラルネットワーク(RNN)は時系列データを処理する強力なモデルである。
トレーニングされたRNNをその固定点を中心に線形化することでリバースエンジニアリングするフレームワークは洞察を与えてきたが、アプローチには大きな課題がある。
本稿では,新しい線形力学系 (SLDS) の定式化によるRNNの協調学習により,これらの制約を克服する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-11-01T20:49:30Z) - Recurrent neural network-based Internal Model Control of unknown
nonlinear stable systems [0.30458514384586394]
Gated Recurrent Neural Networks (RNN)は、動的システムを学ぶための人気のあるツールとなっている。
本稿では、内部モデル制御(IMC)アーキテクチャの合成にこれらのネットワークをどのように適用できるかについて議論する。
論文 参考訳(メタデータ) (2021-08-10T11:02:25Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。