論文の概要: A unified framework on the universal approximation of transformer-type architectures
- arxiv url: http://arxiv.org/abs/2506.23551v1
- Date: Mon, 30 Jun 2025 06:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.944536
- Title: A unified framework on the universal approximation of transformer-type architectures
- Title(参考訳): 変圧器型アーキテクチャの普遍近似に関する統一的枠組み
- Authors: Jingpu Cheng, Qianxiao Li, Ting Lin, Zuowei Shen,
- Abstract要約: 変換器型アーキテクチャの普遍近似特性(UAP)について検討する。
我々の研究は、トークンの識別性をUAPの基本的な要件として認識している。
各種の注意機構を持つ変圧器のUAPを証明し,本フレームワークの適用性を示す。
- 参考スコア(独自算出の注目度): 16.762119652883204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the universal approximation property (UAP) of transformer-type architectures, providing a unified theoretical framework that extends prior results on residual networks to models incorporating attention mechanisms. Our work identifies token distinguishability as a fundamental requirement for UAP and introduces a general sufficient condition that applies to a broad class of architectures. Leveraging an analyticity assumption on the attention layer, we can significantly simplify the verification of this condition, providing a non-constructive approach in establishing UAP for such architectures. We demonstrate the applicability of our framework by proving UAP for transformers with various attention mechanisms, including kernel-based and sparse attention mechanisms. The corollaries of our results either generalize prior works or establish UAP for architectures not previously covered. Furthermore, our framework offers a principled foundation for designing novel transformer architectures with inherent UAP guarantees, including those with specific functional symmetries. We propose examples to illustrate these insights.
- Abstract(参考訳): 本稿では,変圧器型アーキテクチャの普遍近似特性(UAP)について検討し,残差ネットワークの先行結果を注意機構を組み込んだモデルに拡張する統一理論的枠組みを提供する。
本研究は,トークンの識別可能性について,UAPの基本要件として認識し,幅広いアーキテクチャのクラスに適用可能な,汎用的な条件を導入する。
注意層上の解析的仮定を利用することで、この条件の検証を大幅に単純化し、そのようなアーキテクチャのためのUAPを確立するための非建設的なアプローチを提供する。
カーネルベースやスパースアテンション機構を含む,多種多様なアテンション機構を持つトランスフォーマーのUAPを証明することで,我々のフレームワークの適用性を実証する。
結果のまとめは、以前の作業を一般化するか、以前にカバーされていないアーキテクチャのためのUPAを確立するかのどちらかです。
さらに,本フレームワークは,特定の機能対称性を含む固有のUAP保証を備えた新しいトランスフォーマーアーキテクチャを設計するための基本となる。
これらの知見を説明するための例を提案する。
関連論文リスト
- Hierarchical Modeling and Architecture Optimization: Review and Unified Framework [0.6291443816903801]
本稿では、構造化された入力空間に関する文献をレビューし、既存のアプローチを一般化する統一的なフレームワークを提案する。
変数は、その値が他の命令された変数の存在を支配すればメタとして記述され、条件付きおよび階層構造をモデル化できる。
論文 参考訳(メタデータ) (2025-06-27T20:38:57Z) - How Does Sequence Modeling Architecture Influence Base Capabilities of Pre-trained Language Models? Exploring Key Architecture Design Principles to Avoid Base Capabilities Degradation [37.57021686999279]
この研究は、塩基機能に対するシーケンスモデリングアーキテクチャの影響に焦点を当てている。
まず、混合ドメイン事前トレーニング設定では、様々なアーキテクチャ間の基本能力の違いを適切に明らかにできないことを指摘します。
次に、ステートフルシーケンスモデリングアーキテクチャの基本能力を解析し、トランスフォーマーと比較して基盤能力を著しく劣化させることを示した。
論文 参考訳(メタデータ) (2025-05-24T05:40:03Z) - Directional Non-Commutative Monoidal Structures for Compositional Embeddings in Machine Learning [0.0]
指向性非可換モノイド作用素上に構築された合成埋め込みのための新しい構造を導入する。
我々の構成では、各軸 i に対して異なる合成演算子 circ_i を定義し、大域的な可換性を与えることなく、各軸に沿って連想結合を保証する。
すべての軸特異作用素は互いに可換であり、一貫した交叉軸合成を可能にする大域的交換法則を強制する。
論文 参考訳(メタデータ) (2025-05-21T13:27:14Z) - A Survey of Model Architectures in Information Retrieval [64.75808744228067]
機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Explaining Modern Gated-Linear RNNs via a Unified Implicit Attention Formulation [54.50526986788175]
効率的なシーケンスモデリングの最近の進歩は、Mamba、RWKV、および様々なゲートRNNのような注意のないレイヤーを生み出している。
我々はこれらのモデルの統一的なビューを示し、暗黙の因果自己注意層のような層を定式化する。
筆者らのフレームワークは,異なるレイヤに対する類似の基盤となるメカニズムを比較検討し,説明可能性の手法を直接適用する手段を提供する。
論文 参考訳(メタデータ) (2024-05-26T09:57:45Z) - A KDM-Based Approach for Architecture Conformance Checking in Adaptive
Systems [0.3858593544497595]
本稿では,MAPE-K参照モデルに基づく適応型アーキテクチャの仕様を網羅したドメイン固有手法REMEDYを提案する。
提案手法は,MAPE-Kモデルからよく知られたルールを取り入れたASに特化している。
論文 参考訳(メタデータ) (2024-01-29T18:22:11Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - Universal Information Extraction as Unified Semantic Matching [54.19974454019611]
情報抽出を,異なるタスクやスキーマで共有される構造化と概念化という,2つの能力に分割する。
このパラダイムに基づいて、統一意味マッチングフレームワークを用いて様々なIEタスクを普遍的にモデル化することを提案する。
このように、USMはスキーマと入力テキストを共同でエンコードし、サブ構造を一様に並列に抽出し、必要に応じてターゲット構造を制御できる。
論文 参考訳(メタデータ) (2023-01-09T11:51:31Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。