論文の概要: Transformers through the lens of support-preserving maps between measures
- arxiv url: http://arxiv.org/abs/2509.25611v1
- Date: Tue, 30 Sep 2025 00:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.371457
- Title: Transformers through the lens of support-preserving maps between measures
- Title(参考訳): 測度間の支持保存マップのレンズによる変圧器
- Authors: Takashi Furuya, Maarten V. de Hoop, Matti Lassas,
- Abstract要約: 我々は,測度間の地図がトランスフォーマーであるかどうかを考察する。
一方、変換器には変換器が含まれ、一方、変換器は連続なインコンテキスト写像を持つ表現を普遍的に近似する。
測度論的な自己アテンションは、無限の深さ、平均場測度論的な変換器がヴラソフフローと同一視できることを保証する性質を持つことを示す。
- 参考スコア(独自算出の注目度): 17.447252333183616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are deep architectures that define ``in-context maps'' which enable predicting new tokens based on a given set of tokens (such as a prompt in NLP applications or a set of patches for a vision transformer). In previous work, we studied the ability of these architectures to handle an arbitrarily large number of context tokens. To mathematically, uniformly analyze their expressivity, we considered the case that the mappings are conditioned on a context represented by a probability distribution which becomes discrete for a finite number of tokens. Modeling neural networks as maps on probability measures has multiple applications, such as studying Wasserstein regularity, proving generalization bounds and doing a mean-field limit analysis of the dynamics of interacting particles as they go through the network. In this work, we study the question what kind of maps between measures are transformers. We fully characterize the properties of maps between measures that enable these to be represented in terms of in-context maps via a push forward. On the one hand, these include transformers; on the other hand, transformers universally approximate representations with any continuous in-context map. These properties are preserving the cardinality of support and that the regular part of their Fr\'{e}chet derivative is uniformly continuous. Moreover, we show that the solution map of the Vlasov equation, which is of nonlocal transport type, for interacting particle systems in the mean-field regime for the Cauchy problem satisfies the conditions on the one hand and, hence, can be approximated by a transformer; on the other hand, we prove that the measure-theoretic self-attention has the properties that ensure that the infinite depth, mean-field measure-theoretic transformer can be identified with a Vlasov flow.
- Abstract(参考訳): Transformerは '`in-context map'' を定義するディープアーキテクチャで、与えられたトークンセット(NLPアプリケーションでのプロンプトやビジョントランスフォーマー用のパッチセットなど)に基づいて新しいトークンを予測することができる。
これまでの研究で、我々はこれらのアーキテクチャが任意の数のコンテキストトークンを扱う能力について研究した。
数学的に,それらの表現性を均一に解析するために,有限個のトークンに対して離散化される確率分布で表される文脈上で,写像が条件付きである場合を検討した。
確率測度上の写像としてのニューラルネットワークのモデリングには、ワッサーシュタインの正則性の研究、一般化境界の証明、相互作用する粒子がネットワークを通過するときの平均場限界解析など、複数の応用がある。
本研究では,測度間の地図が変圧器であるかどうかを考察する。
提案手法は,プログレッシブ・フォワードによる文脈内地図で表現可能な尺度間の地図の性質を,完全に特徴づけるものである。
一方、変換器には変換器が含まれ、一方、変換器は連続なインコンテキスト写像を持つ表現を普遍的に近似する。
これらの性質は、支持の濃度を保ち、それらの Fr\'{e}chet 微分の正則部分は一様連続である。
さらに,非局所輸送型であるヴラソフ方程式の解写像は,コーシー問題に対する平均場状態における粒子系の相互作用が一方の条件を満たすこと,従って変換器によって近似可能であること,一方,測度理論的自己アテンションが無限の深さ,平均場測度理論的変換器をヴォラソフ流と同一視できる性質を持つことを示す。
関連論文リスト
- Classical feature map surrogates and metrics for quantum control landscapes [0.0]
変動量子回路を一般化するパラメタライズド量子力学の3つの特徴写像を導出し,解析する。
リー・フーリエ表現は、ハミルトンの性質を反映する離散ピークを持つ密度スペクトルを持つが、一般的に見られる対称系では圧縮可能である。
論文 参考訳(メタデータ) (2025-09-30T08:24:13Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Measure-to-measure interpolation using Transformers [5.290251602267728]
トランスフォーマーは、大規模言語モデルの最近の成功を支えるディープニューラルネットワークアーキテクチャである。
トランスフォーマーは、単位球上の特定の相互作用粒子系として実装された測度から測度マップとして機能する。
パラメータを明示的に選択することで、1つのTransformerが$N$任意の入力測度を$N$任意のターゲット測度にマッチさせることができる。
論文 参考訳(メタデータ) (2024-11-07T09:18:39Z) - Transformers are Universal In-context Learners [21.513210412394965]
深層変換器は、コンパクトなトークン領域を均一に、任意の精度で連続的なコンテキスト内マッピングを近似できることを示す。
我々の結果の重要な側面は、既存の結果と比較して、固定精度では、単一変圧器が任意の(無限の)トークン数で動作可能であることである。
論文 参考訳(メタデータ) (2024-08-02T16:21:48Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Entangled Residual Mappings [59.02488598557491]
残余接続の構造を一般化するために、絡み合った残余写像を導入する。
絡み合い残余写像は、アイデンティティスキップ接続を特別な絡み合い写像に置き換える。
絡み合った写像は、様々な深層モデルにまたがる特徴の反復的洗練を保ちながら、畳み込みネットワークにおける表現学習プロセスに影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-06-02T19:36:03Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Fork or Fail: Cycle-Consistent Training with Many-to-One Mappings [67.11712279612583]
サイクル一貫性トレーニングは、2つの関心領域間の前方および逆マッピングの学習に広く用いられている。
我々は条件付き変分オートエンコーダ(cvae)アプローチを開発し、これは全射写像を暗黙の単射に変換するものと見なすことができる。
私たちのパイプラインは、グラフからテキストへの多様性を促進しながら、サイクルトレーニング中に多くのマッピングをキャプチャできます。
論文 参考訳(メタデータ) (2020-12-14T10:59:59Z) - Joint Estimation of Image Representations and their Lie Invariants [57.3768308075675]
画像は世界の状態とコンテンツの両方をエンコードする。
この情報の自動抽出は、画像表現に固有の高次元かつ絡み合った符号化のために困難である。
本稿では,これらの課題の解決を目的とした2つの理論的アプローチを紹介する。
論文 参考訳(メタデータ) (2020-12-05T00:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。