論文の概要: Graded Transformers
- arxiv url: http://arxiv.org/abs/2507.20108v2
- Date: Sat, 30 Aug 2025 18:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.544754
- Title: Graded Transformers
- Title(参考訳): 傾斜変圧器
- Authors: Tony Shaska Sr,
- Abstract要約: そこで我々は,ベクトル空間上のグレーディングを通じて帰納バイアスを埋め込む新しいシーケンスモデルである Graded Transformer フレームワークを紹介した。
このフレームワークは、以前のモデルの固定グレードの制限を克服し、適応的な特徴優先順位付けを可能にする。
Graded Transformerは、階層的学習とニューロシンボリック推論に対する数学的に原則化されたアプローチを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Graded Transformer framework, a new class of sequence models that embeds algebraic inductive biases through grading transformations on vector spaces. Extending Graded Neural Networks (GNNs), we propose two architectures: the Linearly Graded Transformer (LGT) and the Exponentially Graded Transformer (EGT). These models apply parameterized scaling operators, governed by fixed or learnable grading tuples and in the case of EGT exponential factors, to encode hierarchical structure in attention and representation layers and to improve efficiency for structured data. We establish rigorous guarantees, including universal approximation theorems for continuous and Sobolev functions, reduced sample complexity via effective VC dimension bounds, Lipschitz continuity of graded operations, and robustness to perturbations. A graded loss ensures gradient stability and alignment with domain priors during optimization. By treating grades as differentiable parameters, the framework enables adaptive feature prioritization, overcoming limitations of fixed grades in earlier models. The Graded Transformer provides a mathematically principled approach to hierarchical learning and neuro-symbolic reasoning. Applications include algebraic geometry (moduli spaces and zeta functions), physics (multiscale systems), natural language processing (syntactic parsing), biological sequence analysis (variant prediction), robotics and autonomous systems (safety-critical prioritization), the automotive industry (certifiable AI for ADAS), and blockchain and financial cryptography (secure coding and structured prediction).
- Abstract(参考訳): ベクトル空間上の階調変換を通じて代数的帰納バイアスを埋め込む新しいシーケンスモデルである Graded Transformer フレームワークを導入する。
線形勾配変換器(LGT)と指数勾配変換器(EGT)の2つのアーキテクチャを提案する。
これらのモデルは、固定または学習可能なグレーディングタプルとEGT指数係数で制御されるパラメータ化スケーリング演算子を適用し、注目層と表現層における階層構造を符号化し、構造化データの効率を向上させる。
連続およびソボレフ関数に対する普遍近似定理、有効なVC次元境界によるサンプル複雑性の低減、次数演算のリプシッツ連続性、摂動に対する堅牢性など、厳密な保証を確立する。
グレードされた損失は、最適化中に勾配の安定性とドメインの事前値との整合性を保証する。
グレードを微分可能なパラメータとして扱うことにより、フレームワークは適応的な特徴優先順位付けを可能にし、以前のモデルの固定グレードの制限を克服する。
Graded Transformerは、階層的学習とニューロシンボリック推論に対する数学的に原則化されたアプローチを提供する。
応用例としては、代数幾何学(モジュラー空間とゼータ関数)、物理学(マルチスケールシステム)、自然言語処理(シンタクティック解析)、生物学的シーケンス解析(変動予測)、ロボティクスと自律システム(安全クリティカルな優先順位付け)、自動車産業(ADASのための認識可能なAI)、ブロックチェーンと金融暗号(セキュアコーディングと構造化予測)などがある。
関連論文リスト
- Universal Approximation Theorem for a Single-Layer Transformer [0.0]
ディープラーニングでは、バックプロパゲーションアルゴリズムによってトレーニングされた多層ニューラルネットワークを採用している。
トランスフォーマーは自然言語処理において最先端のパフォーマンスを達成した。
本研究では,ReLUアクティベーション付き位置対応フィードフォワードネットワークを付加した自己アテンション層からなる単一層トランスフォーマーが,コンパクト領域上の連続シーケンス・ツー・シーケンスマッピングを任意の精度で実現可能であることを証明した。
論文 参考訳(メタデータ) (2025-07-11T11:37:39Z) - GITO: Graph-Informed Transformer Operator for Learning Complex Partial Differential Equations [0.0]
複素偏微分方程式系を学習するための新しいグラフインフォームド・トランスフォーマ演算子(GITO)アーキテクチャを提案する。
GITOは、HGT(Hybrid graph transformer)とTNO(Transformer Neural operator)の2つの主要モジュールから構成される。
ベンチマークPDEタスクの実験的結果は、GITOが既存のトランスフォーマーベースのニューラル演算子より優れていることを示している。
論文 参考訳(メタデータ) (2025-06-16T18:35:45Z) - Instruction-Guided Autoregressive Neural Network Parameter Generation [49.800239140036496]
本稿では,多種多様なタスクやアーキテクチャにまたがるパラメータ合成を統一する自動回帰フレームワークIGPGを提案する。
ニューラルネットワーク重みのトークンを自動回帰的に生成することにより、IGPGは層間コヒーレンスを確保し、モデルとデータセット間の効率的な適応を可能にする。
複数のデータセットの実験により、IGPGは様々な事前訓練されたモデルを単一の柔軟な生成フレームワークに統合することを示した。
論文 参考訳(メタデータ) (2025-04-02T05:50:19Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。
提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。
我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-03T09:12:14Z) - Artificial Neural Networks on Graded Vector Spaces [0.0]
本稿では,次数ベクトル空間上での人工ニューラルネットワークの変換フレームワークを提案する。
我々は、構造的整合性を維持するため、古典的なニューラルネットワークをグレードされたニューロン、層、アクティベーション関数で拡張する。
ケーススタディでは、重み付き射影空間における不変量を予測するといったタスクにおいて、標準ニューラルネットワークよりも優れた、フレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-07-26T18:17:58Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。
目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文 参考訳(メタデータ) (2023-01-19T18:39:48Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。