論文の概要: Correction of Transformer-Based Models with Smoothing Pseudo-Projector
- arxiv url: http://arxiv.org/abs/2603.09815v1
- Date: Tue, 10 Mar 2026 15:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.432036
- Title: Correction of Transformer-Based Models with Smoothing Pseudo-Projector
- Title(参考訳): 平滑な擬似プロジェクタを用いた変圧器モデル補正
- Authors: Vitaly Bulgakov,
- Abstract要約: 擬似プロジェクタは、既存の言語モデルや他のニューラルネットワークに統合可能な軽量な修正である。
ラベル関係の入力内容によって誘導される方向を抑えることにより、雑音に対する感度を低下させる隠蔽表現補正器とみなすことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pseudo-projector is a lightweight modification that can be integrated into existing language models and other neural networks without altering their core architecture. It can be viewed as a hidden-representation corrector that reduces sensitivity to noise by suppressing directions induced by label-irrelevant input content. The design is inspired by the multigrid (MG) paradigm, originally developed to accelerate the convergence of iterative solvers for partial differential equations and boundary value problems, and later extended to more general linear systems through algebraic multigrid methods. We refer to the method as a pseudo-projector because its linear prototype corresponds to a strictly idempotent orthogonal projector, whereas the practical formulation employs learnable restriction and prolongation operators and therefore does not, in general, satisfy the properties of an exact orthogonal projection. We evaluate the proposed approach on transformer-based text classification tasks, as well as controlled synthetic benchmarks, demonstrating its effectiveness in improving training dynamics and robustness. Experimental results, together with supporting theoretical heuristics, indicate consistent improvements in training behavior across a range of settings, with no adverse effects observed otherwise. Our next step will be to extend this approach to language models.
- Abstract(参考訳): 擬似プロジェクタは軽量な修正であり、コアアーキテクチャを変更することなく、既存の言語モデルや他のニューラルネットワークに統合することができる。
ラベル関係の入力内容によって誘導される方向を抑えることにより、雑音に対する感度を低下させる隠蔽表現補正器とみなすことができる。
この設計は、もともと偏微分方程式と境界値問題に対する反復解法の収束を加速するために開発された多重グリッド(MG)パラダイムにインスパイアされ、後に代数的多重グリッド法によってより一般的な線形系へと拡張された。
この手法を擬プロジェクターと呼ぶのは、その線型プロトタイプが厳密な等角的直交射影に対応するのに対して、実際的な定式化は学習可能な制限と延長演算を使い、したがって一般には、正確な直交射影の性質を満足しないからである。
本研究は,トランスフォーマーに基づくテキスト分類タスクに対する提案手法と,制御された合成ベンチマークについて評価し,トレーニングのダイナミクスとロバスト性を改善する上での有効性を実証する。
実験の結果は、理論的ヒューリスティックスを支持するとともに、様々な条件でトレーニング行動が一貫した改善を示す。
次のステップは、このアプローチを言語モデルに拡張することです。
関連論文リスト
- Zero-Variance Gradients for Variational Autoencoders [32.818968022327866]
変分オートエンコーダ(VAE)のような深層生成モデルの訓練は、潜伏変数のサンプリングを通じて勾配をバックプロパゲートする必要性によって、しばしば妨げられる。
本稿では,この問題をサイドステップとして,Silent Gradientsと呼ぶ新しい視点を提案する。
推定器を改良する代わりに、特定のデコーダアーキテクチャを解析的に利用して予測されるELBOを計算する。
論文 参考訳(メタデータ) (2025-08-05T15:54:21Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Straightening Out the Straight-Through Estimator: Overcoming
Optimization Challenges in Vector Quantized Networks [35.6604960300194]
本研究は,ベクトル量子化を用いたニューラルネットワークのストレートスルー推定による学習課題について検討する。
トレーニング不安定の主な原因は,モデル埋め込みとコードベクトル分布の相違である。
この問題に寄与する要因として,コードブックの勾配幅やコミットメント損失の非対称性などを挙げる。
論文 参考訳(メタデータ) (2023-05-15T17:56:36Z) - BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文 参考訳(メタデータ) (2022-06-02T01:54:58Z) - Disentangled Representation Learning and Generation with Manifold
Optimization [10.69910379275607]
本研究は,変分方向の促進による絡み合いを明確に促進する表現学習フレームワークを提案する。
理論的な議論と様々な実験により、提案モデルは、生成品質と非絡み合い表現学習の両方の観点から、多くのVAE変種よりも改善されていることが示された。
論文 参考訳(メタデータ) (2020-06-12T10:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。