論文の概要: Sparse Transformer Architectures via Regularized Wasserstein Proximal Operator with $L_1$ Prior
- arxiv url: http://arxiv.org/abs/2510.16356v1
- Date: Sat, 18 Oct 2025 05:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.960624
- Title: Sparse Transformer Architectures via Regularized Wasserstein Proximal Operator with $L_1$ Prior
- Title(参考訳): L_1$プリエント付き正規化ワッサースタイン近似演算子によるスパーストランスフォーマーアーキテクチャ
- Authors: Fuqun Han, Stanley Osher, Wuchen Li,
- Abstract要約: 本稿では,ニューラルネットワークのトランス構造に直接,基礎となるデータ分布に関する事前情報を組み込んだスパーストランスアーキテクチャを提案する。
スパース変圧器は,従来のニューラルODE法よりも精度が高く,目標分布への収束が速いことを実証した。
- 参考スコア(独自算出の注目度): 0.49193859756091124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a sparse transformer architecture that incorporates prior information about the underlying data distribution directly into the transformer structure of the neural network. The design of the model is motivated by a special optimal transport problem, namely the regularized Wasserstein proximal operator, which admits a closed-form solution and turns out to be a special representation of transformer architectures. Compared with classical flow-based models, the proposed approach improves the convexity properties of the optimization problem and promotes sparsity in the generated samples. Through both theoretical analysis and numerical experiments, including applications in generative modeling and Bayesian inverse problems, we demonstrate that the sparse transformer achieves higher accuracy and faster convergence to the target distribution than classical neural ODE-based methods.
- Abstract(参考訳): 本研究では,ニューラルネットワークのトランス構造に直接,基礎となるデータ分布に関する事前情報を組み込むスパーストランスフォーマーアーキテクチャを提案する。
モデルの設計は特別な最適輸送問題、すなわち正則化ワッサーシュタイン近位作用素によって動機付けられ、これは閉形式解を認め、変換器アーキテクチャの特殊表現であることが判明する。
従来のフローベースモデルと比較して,提案手法は最適化問題の凸性を改善し,生成したサンプルの空間性を促進する。
生成モデルとベイズ逆問題への応用を含む理論的解析と数値実験の両方を通して、スパース変圧器は古典的ニューラルODE法よりも精度が高く、目標分布への収束が速いことを実証した。
関連論文リスト
- Neural Optimal Transport Meets Multivariate Conformal Prediction [58.43397908730771]
条件付きベクトル回帰(CVQR)のためのフレームワークを提案する。
CVQRは、ニューラルネットワークの最適輸送と量子化された最適化を組み合わせて、予測に適用する。
論文 参考訳(メタデータ) (2025-09-29T19:50:19Z) - Dual Filter: A Mathematical Framework for Inference using Transformer-like Architectures [1.9567015559455132]
隠れマルコフモデル(HMM)から観測結果が生成される環境下での因果非線形予測の枠組みを提案する。
問題の定式化と解法はどちらもデコーダのみのトランスアーキテクチャによって動機付けられている。
論文 参考訳(メタデータ) (2025-05-01T19:19:29Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Approximation Rate of the Transformer Architecture for Sequence Modeling [18.166959969957315]
非線型関係のクラスを考察し、トランスフォーマーのジャクソン型近似率推定を明示するために、複雑性尺度の新たな概念を同定する。
この速度はトランスフォーマーの構造特性を明らかにし、それが近似に最も適しているシーケンシャルな関係のタイプを示唆する。
論文 参考訳(メタデータ) (2023-05-29T10:56:36Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。