Fugu-MT 論文翻訳(概要): Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights

論文の概要: Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights

arxiv url: http://arxiv.org/abs/2505.03205v1
Date: Tue, 06 May 2025 05:41:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:11.227792
Title: Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights
Title（参考訳）: 雑音・タスクレベルマニフォールド学習用変圧器の近似と一般化
Authors: Zhaiming Shen, Alex Havrilla, Rongjie Lai, Alexander Cloninger, Wenjing Liao,
Abstract要約: この研究は、多様体上のノイズの多い入力データを含む回帰タスクにおける変換器の性能を分析することによって理論的基礎を確立する。我々は、多様体の内在次元に決定的に依存する近似と一般化誤差を証明した。この結果から,入力データに高次元ノイズが伴う場合においても,学習課題における低複雑さ構造を活用できることが示唆された。
参考スコア（独自算出の注目度）: 47.62295798627317
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers serve as the foundational architecture for large language and video generation models, such as GPT, BERT, SORA and their successors. Empirical studies have demonstrated that real-world data and learning tasks exhibit low-dimensional structures, along with some noise or measurement error. The performance of transformers tends to depend on the intrinsic dimension of the data/tasks, though theoretical understandings remain largely unexplored for transformers. This work establishes a theoretical foundation by analyzing the performance of transformers for regression tasks involving noisy input data on a manifold. Specifically, the input data are in a tubular neighborhood of a manifold, while the ground truth function depends on the projection of the noisy data onto the manifold. We prove approximation and generalization errors which crucially depend on the intrinsic dimension of the manifold. Our results demonstrate that transformers can leverage low-complexity structures in learning task even when the input data are perturbed by high-dimensional noise. Our novel proof technique constructs representations of basic arithmetic operations by transformers, which may hold independent interest.
Abstract（参考訳）: トランスフォーマーは、GPT、BERT、SORAなどの大規模言語およびビデオ生成モデルの基盤アーキテクチャとして機能する。実世界のデータと学習タスクが低次元構造を示し、ノイズや測定誤差も示している。変圧器の性能はデータ/タスクの本質的な次元に依存する傾向にあるが、理論的な理解は変圧器には未解明のままである。この研究は、多様体上のノイズの多い入力データを含む回帰タスクにおける変換器の性能を分析することによって理論的基礎を確立する。具体的には、入力データは多様体の管状近傍にあり、基底真理関数は多様体へのノイズデータの投影に依存する。我々は、多様体の内在次元に決定的に依存する近似と一般化誤差を証明した。この結果から,入力データに高次元ノイズが伴う場合においても,学習タスクにおける低複雑さ構造を活用できることが示唆された。提案手法は,変圧器による基本演算の表現を構成する。

関連論文リスト

Transformers as Unsupervised Learning Algorithms: A study on Gaussian Mixtures [10.970776446566909]
本稿では,教師なし学習問題の解法における変圧器の機能について検討する。複数のGMMタスクを同時に学習するTGMMというトランスフォーマーベースの学習フレームワークを提案する。我々は、変換器がスペクトル法のEMアルゴリズムとコア成分の両方を近似できることを証明した。
論文参考訳（メタデータ） (2025-05-17T09:02:18Z)
A Theory for Compressibility of Graph Transformers for Transductive Learning [6.298115235439078]
グラフ上のトランスダクティブタスクは、典型的な教師付き機械学習タスクと根本的に異なる。すべてのトレイン/テスト/バリデーションサンプルは、トレーニング中に存在しており、半教師付きタスクに似ています。我々は、これらのネットワークの隠れた次元をどのように圧縮できるかという理論的な境界を定めている。
論文参考訳（メタデータ） (2024-11-20T04:20:17Z)
Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。 Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文参考訳（メタデータ） (2024-10-07T17:57:38Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
When can transformers reason with abstract symbols? [25.63285482210457]
大規模なタスク群における関係推論タスクに対して、変換器は抽象的関係を学習し、テストセットに一般化する。これは、古典的な完全接続ネットワークとは対照的に、我々は推論を学ぶのに失敗している。
論文参考訳（メタデータ） (2023-10-15T06:45:38Z)
FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised Pretraining [36.44039681893334]
ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。現在の最先端ハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するのみである。本稿では、自己教師付き事前学習手順を取り入れた新しい分解スペクトル空間変換器を提案する。
論文参考訳（メタデータ） (2023-09-18T02:05:52Z)
Representational Strengths and Limitations of Transformers [33.659870765923884]
我々は,注目層の表現力について,肯定的な結果と否定的な結果の両方を定めている。トランスにおける大きな埋め込み次元の必要性と役割を示す。また、注意層によって効率的に解ける自然変種も提示する。
論文参考訳（メタデータ） (2023-06-05T14:05:04Z)
Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文参考訳（メタデータ） (2023-05-30T02:44:49Z)
How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文参考訳（メタデータ） (2023-03-07T21:42:17Z)
On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文参考訳（メタデータ） (2021-06-30T17:09:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。