論文の概要: Dual Filter: A Mathematical Framework for Inference using Transformer-like Architectures
- arxiv url: http://arxiv.org/abs/2505.00818v1
- Date: Thu, 01 May 2025 19:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.811687
- Title: Dual Filter: A Mathematical Framework for Inference using Transformer-like Architectures
- Title(参考訳): Dual Filter: トランスフォーマーのようなアーキテクチャを用いた推論のための数学的フレームワーク
- Authors: Heng-Sheng Chang, Prashant G. Mehta,
- Abstract要約: 隠れマルコフモデル(HMM)から観測結果が生成される環境下での因果非線形予測の枠組みを提案する。
問題の定式化と解法はどちらもデコーダのみのトランスアーキテクチャによって動機付けられている。
- 参考スコア(独自算出の注目度): 1.9567015559455132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a mathematical framework for causal nonlinear prediction in settings where observations are generated from an underlying hidden Markov model (HMM). Both the problem formulation and the proposed solution are motivated by the decoder-only transformer architecture, in which a finite sequence of observations (tokens) is mapped to the conditional probability of the next token. Our objective is not to construct a mathematical model of a transformer. Rather, our interest lies in deriving, from first principles, transformer-like architectures that solve the prediction problem for which the transformer is designed. The proposed framework is based on an original optimal control approach, where the prediction objective (MMSE) is reformulated as an optimal control problem. An analysis of the optimal control problem is presented leading to a fixed-point equation on the space of probability measures. To solve the fixed-point equation, we introduce the dual filter, an iterative algorithm that closely parallels the architecture of decoder-only transformers. These parallels are discussed in detail along with the relationship to prior work on mathematical modeling of transformers as transport on the space of probability measures. Numerical experiments are provided to illustrate the performance of the algorithm using parameter values used in researchscale transformer models.
- Abstract(参考訳): 本稿では,基礎となる隠れマルコフモデル(HMM)から観測結果が生成されるような環境下での因果非線形予測のための数学的枠組みを提案する。
問題の定式化と提案した解はどちらもデコーダのみのトランスフォーマーアーキテクチャによって動機付けられ、そこでは観測の有限列(トークン)が次のトークンの条件付き確率にマッピングされる。
我々の目標は、変圧器の数学的モデルを構築することではありません。
むしろ、私たちの関心は、トランスフォーマーが設計される予測問題を解決するトランスフォーマーのようなアーキテクチャを第一原理から導き出すことにあります。
提案手法は,予測目標(MMSE)を最適制御問題として再定義する,従来の最適制御手法に基づいている。
最適制御問題を解析することにより、確率測度の空間上の不動点方程式が導かれる。
固定点方程式の解法として,デコーダのみの変換器のアーキテクチャを並列化する反復アルゴリズムである双対フィルタを導入する。
これらの並列性は、確率測度の空間上の輸送としての変圧器の数学的モデリングに関する先行研究と関係して詳細に議論される。
研究スケール変換器モデルで用いられるパラメータ値を用いて,アルゴリズムの性能を示す数値実験を行った。
関連論文リスト
- Constrained belief updates explain geometric structures in transformer representations [0.0]
我々は、最適予測のモデル非依存理論と機械論的解釈可能性を統合し、隠れマルコフモデルのトラクタブルファミリーで訓練されたトランスフォーマーを解析する。
注目ヘッドは,確率単純度を自然に解釈したアルゴリズムを実行し,特異な幾何学的構造を持つ表現を生成する。
論文 参考訳(メタデータ) (2025-02-04T03:03:54Z) - Adaptive posterior distributions for uncertainty analysis of covariance matrices in Bayesian inversion problems for multioutput signals [0.0]
非線形多出力モデルのパラメータに対してベイズ推定を行う際の問題に対処する。
興味のある変数は2つのブロックに分割され、推論は既知の解析最適化公式を利用する。
論文 参考訳(メタデータ) (2025-01-02T09:01:09Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - EdgeFormer: A Parameter-Efficient Transformer for On-Device Seq2seq
Generation [104.44478403427881]
EdgeFormerは、オンデバイスセq2seq生成のためのエンコーダデコーダアーキテクチャのパラメータ効率の変換器である。
本研究は,機械翻訳と文法誤り訂正という2つの実用的なオンデバイスセク2seqタスクの実験を行う。
論文 参考訳(メタデータ) (2022-02-16T10:10:00Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Bayesian learning of orthogonal embeddings for multi-fidelity Gaussian
Processes [3.564709604457361]
プロジェクション」マッピングは、事前未知と見なされる正則行列から成り、GPパラメータと共同で推論する必要がある。
提案するフレームワークをGPを用いたマルチ忠実度モデルに拡張し,複数の出力を同時にトレーニングするシナリオを含む。
提案手法の利点は, 産業用ガスタービン用最終段翼の3次元空力最適化に難渋するものである。
論文 参考訳(メタデータ) (2020-08-05T22:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。