論文の概要: Transformer-like Inference from Optimal Control
- arxiv url: http://arxiv.org/abs/2605.15608v1
- Date: Fri, 15 May 2026 04:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.159164
- Title: Transformer-like Inference from Optimal Control
- Title(参考訳): 最適制御による変圧器様推論
- Authors: Aditya Kudre, Heng-Sheng Chang, Prashant G. Mehta,
- Abstract要約: 第一原理から、同じ予測問題を解く推論アーキテクチャを導出する。
2つのモデルクラスに対して、予測目標を最適制御問題として再構成する。
実験により、埋め込み次元が不足すると、変圧器は非マルコフ構造を暗黙的に活用することが明らかになった。
- 参考スコア(独自算出の注目度): 0.5161531917413708
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Decoder-only transformers compute the conditional probability of the next token from a sequence of past observations. This paper derives, from first principles, inference architectures that solve the same prediction problem - and in doing so, recovers transformer-like layer operations as a consequence of optimal control theory. The framework is developed for two model classes: a nonlinear model of discrete-valued processes, directly motivated by the transformer, and a linear Gaussian model as a tractable baseline. For both model classes, the prediction objective is reformulated as an optimal control problem whose solution yields an explicit inference algorithm, the dual filter, with a layer structure that mirrors the layer structure of a decoder-only transformer. Numerical experiments provide a comparison of the optimal control to attention weights from a trained transformer. These experiments reveal that when the embedding dimension is insufficient, the transformer implicitly exploits non-Markovian structure.
- Abstract(参考訳): デコーダのみの変換器は、過去の観測のシーケンスから次のトークンの条件確率を計算する。
本論文は, 第一原理から, 同じ予測問題を解く推論アーキテクチャを導出し, 最適制御理論の結果, 変圧器のような層操作を復元する。
このフレームワークは、2つのモデルクラスに対して開発されている: 離散値プロセスの非線形モデルで、トランスフォーマーによって直接動機づけられる、および、トラクタブルベースラインとしての線形ガウスモデルである。
どちらのモデルクラスに対しても、予測対象は、デコーダのみの変換器の層構造を反映する層構造で、解が明示的な推論アルゴリズムである双対フィルタを生成する最適制御問題として再構成される。
数値実験は、訓練された変圧器からの注意重みに対する最適制御の比較を提供する。
これらの実験により、埋め込み次元が不足すると、変圧器は非マルコフ構造を暗黙的に活用する。
関連論文リスト
- Correction of Transformer-Based Models with Smoothing Pseudo-Projector [0.0]
擬似プロジェクタは、既存の言語モデルや他のニューラルネットワークに統合可能な軽量な修正である。
ラベル関係の入力内容によって誘導される方向を抑えることにより、雑音に対する感度を低下させる隠蔽表現補正器とみなすことができる。
論文 参考訳(メタデータ) (2026-03-10T15:42:46Z) - A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。
拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文 参考訳(メタデータ) (2026-01-24T02:12:39Z) - Sparse Transformer Architectures via Regularized Wasserstein Proximal Operator with $L_1$ Prior [0.49193859756091124]
本稿では,ニューラルネットワークのトランス構造に直接,基礎となるデータ分布に関する事前情報を組み込んだスパーストランスアーキテクチャを提案する。
スパース変圧器は,従来のニューラルODE法よりも精度が高く,目標分布への収束が速いことを実証した。
論文 参考訳(メタデータ) (2025-10-18T05:26:13Z) - Dual Filter: A Mathematical Framework for Inference using Transformer-like Architectures [1.9567015559455132]
隠れマルコフモデル(HMM)から観測結果が生成される環境下での因果非線形予測の枠組みを提案する。
問題の定式化と解法はどちらもデコーダのみのトランスアーキテクチャによって動機付けられている。
論文 参考訳(メタデータ) (2025-05-01T19:19:29Z) - In-Context Learning of Linear Dynamical Systems with Transformers: Approximation Bounds and Depth-Separation [14.716318664357408]
本稿では,雑音の線形力学系群を表す変圧器の文脈内学習能力の近似論的側面について検討する。
最初の理論的結果は、タスク間で一様に定義された$L2$-testing損失に対して、多層変圧器の近似誤差の上限を確立する。
2つ目の結果は、単層線形変圧器のクラスに対する近似誤差の非最小化下界を確立することである。
論文 参考訳(メタデータ) (2025-02-12T05:40:11Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。