論文の概要: From Small to Large: Generalization Bounds for Transformers on Variable-Size Inputs
- arxiv url: http://arxiv.org/abs/2512.12805v1
- Date: Sun, 14 Dec 2025 19:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.450637
- Title: From Small to Large: Generalization Bounds for Transformers on Variable-Size Inputs
- Title(参考訳): 小から大へ:可変サイズ入力における変圧器の一般化境界
- Authors: Anastasiia Alokhina, Pan Li,
- Abstract要約: トランスフォーマーは、より小さなトークン集合からはるかに長いトークン集合への外挿能力を示す、エンファシズム一般化の顕著な特性を示す。
この振る舞いは、ポイントクラウド、グラフ、自然言語など、さまざまなアプリケーションにまたがって文書化されている。
我々はこの現象を幾何学的データとして解析するための理論的枠組みを開発する。
- 参考スコア(独自算出の注目度): 7.908162875769378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers exhibit a notable property of \emph{size generalization}, demonstrating an ability to extrapolate from smaller token sets to significantly longer ones. This behavior has been documented across diverse applications, including point clouds, graphs, and natural language. Despite its empirical success, this capability still lacks some rigorous theoretical characterizations. In this paper, we develop a theoretical framework to analyze this phenomenon for geometric data, which we represent as discrete samples from a continuous source (e.g., point clouds from manifolds, graphs from graphons). Our core contribution is a bound on the error between the Transformer's output for a discrete sample and its continuous-domain equivalent. We prove that for Transformers with stable positional encodings, this bound is determined by the sampling density and the intrinsic dimensionality of the data manifold. Experiments on graphs and point clouds of various sizes confirm the tightness of our theoretical bound.
- Abstract(参考訳): 変換器は \emph{size generalization} の顕著な性質を示し、より小さなトークン集合からかなり長いトークン集合へ外挿する能力を示す。
この振る舞いは、ポイントクラウド、グラフ、自然言語など、さまざまなアプリケーションにまたがって文書化されている。
実証的な成功にもかかわらず、この能力は厳密な理論的特徴を欠いている。
本稿では,この現象を連続的な情報源(例えば,多様体からの点雲,グラフからのグラフ)から離散的なサンプルとして表現する幾何学的データに対して解析する理論的枠組みを開発する。
私たちのコアコントリビューションは、離散サンプルに対するTransformerの出力と、その連続ドメイン等価値との間のエラーのバウンドです。
安定な位置符号化を持つ変換器の場合、この境界はデータ多様体のサンプリング密度と固有次元によって決定される。
様々な大きさのグラフと点雲の実験は、我々の理論的境界の厳密さを裏付ける。
関連論文リスト
- The calculus of variations of the Transformer on the hyperspherical tangent bundle [0.0]
トークン空間を横断するラグランジアン最適化を通じて、トランスフォーマーの理論的背景を提供する。
トランスフォーマーはフローマップとして、高次元の単位球面に沿って各トークンの接ファイバーに存在する。
変換器のオイラー・ラグランジュ方程式を導出する。
論文 参考訳(メタデータ) (2025-07-21T09:43:33Z) - A Theory for Compressibility of Graph Transformers for Transductive Learning [6.298115235439078]
グラフ上のトランスダクティブタスクは、典型的な教師付き機械学習タスクと根本的に異なる。
すべてのトレイン/テスト/バリデーションサンプルは、トレーニング中に存在しており、半教師付きタスクに似ています。
我々は、これらのネットワークの隠れた次元をどのように圧縮できるかという理論的な境界を定めている。
論文 参考訳(メタデータ) (2024-11-20T04:20:17Z) - Graph Transformers Dream of Electric Flow [72.06286909236827]
グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。
提案手法は,各アルゴリズムを実装するための明示的な重み設定を示し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
我々の研究は、グラフデータのためのTransformerの内部処理を解明するための最初のステップです。
論文 参考訳(メタデータ) (2024-10-22T05:11:45Z) - Towards Understanding Inductive Bias in Transformers: A View From Infinity [9.00214539845063]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - A Hierarchical Spatial Transformer for Massive Point Samples in
Continuous Space [11.074768589778934]
既存のトランスは、主にシーケンス(テキストや時系列)、画像やビデオ、グラフのために設計されている。
本稿では,連続空間における大規模(最大100万点)点サンプルに対する新しい変圧器モデルを提案する。
論文 参考訳(メタデータ) (2023-11-08T02:54:19Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。