論文の概要: Transformer as an Euler Discretization of Score-based Variational Flow
- arxiv url: http://arxiv.org/abs/2604.23740v1
- Date: Sun, 26 Apr 2026 14:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.529567
- Title: Transformer as an Euler Discretization of Score-based Variational Flow
- Title(参考訳): スコアベース変分流のオイラー離散化としての変圧器
- Authors: Huadong Liao,
- Abstract要約: 本稿では,表現学習のための連続時間動的システムであるScore-based Variational Flow (SVFlow)を紹介する。
球面SVFlowの前方離散化がTransformerアーキテクチャを正確に回復することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the Transformer's dominance across machine learning, its architecture remains largely heuristic and lacks a unified theoretical foundation. We introduce Score-based Variational Flow (SVFlow), a continuous-time dynamical system for representation learning in which the state evolves according to a variational posterior-weighted average of conditional log-likelihood scores, and provide a principled basis for regularization through variational consistency. We show that forward Euler discretization of spherical SVFlow exactly recovers the Transformer architecture. Multi-head attention approximates SVFlow vector field via a vMF kernel-smoothed posterior, while MoE/FFN approximates it in a relaxed network-based way, and the residual-normalization block implements a relaxed retraction that maintains spherical geometry. This unification explains why attention trains stably without explicit regularization while MoE requires auxiliary balancing losses. Experiments on pre-trained language models with prefix shuffling show that SVFlow-induced metrics correlate with task performance, reveal depth-dependent sensitivity, and reflect the intrinsic dynamics of attention.
- Abstract(参考訳): 機械学習におけるトランスフォーマーの優位性にもかかわらず、そのアーキテクチャは概してヒューリスティックであり、統一された理論基盤を欠いている。
Score-based Variational Flow (SVFlow) は、条件付き対数類似スコアの変動後重み付き平均値に応じて状態が進化する連続時間動的学習システムであり、変分整合による正規化のための基本的基礎を提供する。
球面SVFlowの前方Euler離散化がTransformerアーキテクチャを正確に回復することを示す。
マルチヘッドアテンションは、SVFlowベクトル場をvMFカーネル平滑後部で近似し、MoE/FFNは緩和されたネットワークベースで近似し、残留正規化ブロックは、球面形状を維持する緩和されたリトラクションを実装している。
この統合は、MoEが補助的なバランスのとれた損失を必要とする間、注意列車が明確な正規化なしで安定的に運行される理由を説明する。
プレフィックスシャッフルを用いた事前学習言語モデルの実験では,SVFlowによる測定値とタスク性能の相関がみられ,深度依存性の感度が明らかとなり,本質的な注意力のダイナミクスが反映されることが示されている。
関連論文リスト
- Trajectory Stitching for Solving Inverse Problems with Flow-Based Models [68.36374645801901]
フローベースの生成モデルは、逆問題を解決するための強力な先行要因として現れてきた。
1つの初期コードではなく、中間潜在状態の列として軌道を表すMS-Flowを提案する。
画像の回復と逆問題に対するMS-Flowの有効性を示す。
論文 参考訳(メタデータ) (2026-02-09T11:36:41Z) - Is Flow Matching Just Trajectory Replay for Sequential Data? [46.770624059457724]
時系列生成には、フローマッチング(FM)がますます使われている。
一般的な力学構造を学ぶのか、それとも単に効果的な「軌道再生」を行うのかはよく分かっていない。
インプリッドサンプリングは、非パラメトリックなメモリ拡張型連続時間力学系を構成するODEであることを示す。
論文 参考訳(メタデータ) (2026-02-09T06:48:45Z) - Physics-Informed Design of Input Convex Neural Networks for Consistency Optimal Transport Flow Matching [1.3709465727733763]
物理インフォームド・ニューラル入力整合性ネットワーク(PICNN)は、変位をエミュレートする流れ場の構築において中心的な役割を果たす。
予測段階では,一段階(Mrenier-map)と多段階ODEサンプリングの両方をサポートし,OTフローの直線性を活用する。
論文 参考訳(メタデータ) (2025-11-08T15:30:55Z) - Flow Equivariant Recurrent Neural Networks [2.900810893770134]
機械学習では、データの対称性を尊重するニューラルネットワークアーキテクチャを同変と呼ぶ。
我々は同変ネットワーク理論をこの流れの体系に拡張し、時間とともに自然変換を捉える。
これらのモデルは、トレーニング速度、長さの一般化、速度の一般化において、非同変モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-07-20T02:52:21Z) - FlowDAS: A Stochastic Interpolant-based Framework for Data Assimilation [15.64941169350615]
データ同化(DA)は、PDEが支配するシステムの状態を推定するために、動的モデルと観測を統合する。
FlowDASは、間補体を使用して状態遷移ダイナミクスを学習する生成DAフレームワークである。
本研究では,FlowDASがモデル駆動法,ニューラル演算子,スコアベースベースラインを超える精度と物理的妥当性を示す。
論文 参考訳(メタデータ) (2025-01-13T05:03:41Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Improving the Sample-Complexity of Deep Classification Networks with
Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。
そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。
本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文 参考訳(メタデータ) (2022-02-08T16:16:11Z) - Emulating Spatio-Temporal Realizations of Three-Dimensional Isotropic
Turbulence via Deep Sequence Learning Models [24.025975236316842]
最先端のディープラーニング技術を用いて3次元乱流をモデル化するために,データ駆動方式を用いる。
モデルの精度は、統計および物理に基づくメトリクスを用いて評価される。
論文 参考訳(メタデータ) (2021-12-07T03:33:39Z) - SurVAE Flows: Surjections to Bridge the Gap between VAEs and Flows [78.77808270452974]
SurVAE Flowsは、VAEと正規化フローを含む構成可能な変換のためのモジュラーフレームワークである。
提案手法は,SurVAE フローとして表現できることが示唆された。
論文 参考訳(メタデータ) (2020-07-06T13:13:22Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。