論文の概要: NoiseFormer -- Noise Diffused Symmetric Attention Transformer
- arxiv url: http://arxiv.org/abs/2601.11619v1
- Date: Sat, 10 Jan 2026 14:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.801066
- Title: NoiseFormer -- Noise Diffused Symmetric Attention Transformer
- Title(参考訳): ノイズフォーマ-音拡散対称アテンション変圧器
- Authors: Phani Kumar, Nyshadham, Jyothendra Varma, Polisetty V R K, Aditya Rathore,
- Abstract要約: 本稿では,モデルの性能を向上させるため,ノイズ拡散対称アテンション変換器という新しい統一モデルアーキテクチャを提案する。
提案モデルはGPT2ベースモデルに基づいて検証され,その結果は平滑なSymmetric attentionとGPT2ベースモデルの間の性能向上を反映する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architecture has been very successful long runner in the field of Deep Learning (DL) and Large Language Models (LLM) because of its powerful attention-based learning and parallel-natured architecture. As the models grow gigantic in terms of memory footprint, difficulties in fitting the model on a device like a GPU or an AI accelerator give rise to the need for multiple computing devices thereby escalating the computing cost. This increased training/inference cost paved the way for efficient model size reduction/parametric reduction deploying Sparse Attention techniques. In this paper, we start analyzing one of the techniques of Sparse Attention called Symmetric Dot-Product Attention (referred to as Symmetric Attention) and propose a novel unified model architecture called Noise Diffused Symmetric Attention Transformer to enhance the model's performance. While maintaining the memory gains of Symmetric Attention, with minute overhead in terms of model parameters and computational overhead, the proposed model brings in enhanced performance in terms of accuracy and inference-time sampling. The proposed model is validated upon GPT2 base model and the results reflect the performance gains falling between plain Symmetric attention and GPT2 base model on a variety of GLUE benchmark tasks in terms of accuracy, with significant model size reduction with respect to the base model.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、強力な注目に基づく学習と並列化アーキテクチャのため、Deep Learning (DL)とLarge Language Models (LLM)の分野で非常に成功した。
メモリフットプリントの面でモデルが大きく成長するにつれて、GPUやAIアクセラレータのようなデバイスにモデルを適合させることの難しさが、複数のコンピューティングデバイスの必要性を生じさせ、コンピューティングコストをエスカレートする。
このトレーニング/推論コストの増大は、スパースアテンションを配置する効率的なモデルサイズ削減/パラメトリックリダクションの道を開いた。
本稿では,Symmetric Dot-Product Attention(Symmetric Attention)と呼ばれるスパースアテンションの手法の1つを分析し,モデルの性能を高めるためにノイズ拡散Symmetric Attention Transformerと呼ばれる新しい統一モデルアーキテクチャを提案する。
モデルパラメータや計算オーバーヘッドの観点からは, シンメトリ注意のメモリゲインを維持する一方で, 提案モデルでは, 精度と推定時間サンプリングの点で, 性能が向上する。
提案手法はGPT2ベースモデルに基づいて検証され,GPT2ベースモデルとGPT2ベースモデルとの間の性能向上を,GLUEベンチマークタスクの精度の観点から反映する。
関連論文リスト
- Large Language Models Inference Engines based on Spiking Neural Networks [5.529385616266398]
我々は、トランスモデルを設計するためにスパイキングニューラルネットワーク(SNN)を探索する。
大規模SNNのトレーニングにおける課題は、非効率で時間を要する。
推論のためのトランスフォーマーベースSNNを設計する手法であるNeurTransformerを提案する。
論文 参考訳(メタデータ) (2025-09-30T18:11:13Z) - Neural Parameter Search for Slimmer Fine-Tuned Models and Better Transfer [17.463052541838504]
微調整されたモデルは、しばしば特定のドメインの外で苦労し、かなりの冗長性を示す。
近年の研究では、プルーニングされた微調整モデルと元の事前学習モデルを組み合わせることで、タスク間でモデルパラメータをマージする際の干渉を軽減することが示唆されている。
微調整モデルのスリム化のためのニューラル・プルーニング(NPS-Pruning)という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-24T14:27:20Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Edge Federated Learning Via Unit-Modulus Over-The-Air Computation
(Extended Version) [64.76619508293966]
本稿では,効率の良いエッジフェデレーション学習を実現するために,UM-AirCompフレームワークを提案する。
ローカルモデルパラメータを同時にアップロードし、アナログビームフォーミングを通じてグローバルモデルパラメータを更新する。
車両間自動運転シミュレーションプラットフォームにおけるUM-AirCompの実装を実演する。
論文 参考訳(メタデータ) (2021-01-28T15:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。