Fugu-MT 論文翻訳(概要): Homeostasis and Sparsity in Transformer

論文の概要: Homeostasis and Sparsity in Transformer

arxiv url: http://arxiv.org/abs/2412.00503v2
Date: Sun, 08 Dec 2024 13:24:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 14:43:04.074792
Title: Homeostasis and Sparsity in Transformer
Title（参考訳）: 変圧器のホメオスタシスと疎縮
Authors: Leonid Kotyuzanskiy, Artem Klimov,
Abstract要約: 本稿では, RFB-kWTA や Smart Inhibition などのホメオスタシス機構をトランスの注意機構やトランスの出力に応用することを提案する。提案手法は,従来の変圧器0.2768BLEUと,変圧器ブロック0.3007BLEUのアテンション機構と出力にのみ適用可能なモデルとを著しく上回っている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The transformer architecture has become an integral part of the field of modern neural networks, playing a crucial role in a variety of tasks, such as text generation, machine translation, image and audio processing, among others. There is also an alternative approach to building intelligent systems, proposed by Jeff Hawkins and inspired by the processes occurring in the neocortex. In our article we want to combine some of these ideas and to propose the use of homeostasis mechanisms, such as RFB-kWTA and "Smart" Inhibition, in the attention mechanism of the transformer and at the output of the transformer block, as well as conducting an experiment involving the introduction of sparse distributed representations of the transformer at various points. RFB-kWTA utilizes statistics of layer activations across time to adjust the entire layer, enhancing the values of rare activations while reducing those of frequent ones. "Smart" Inhibition also uses activation statistics to sample sparsity masks, with rarer activation times are more likely to be activated. Our proposed mechanisms significantly outperform the classical transformer 0.2768 BLEU and a model that only makes use of dropout in the attention mechanism and output of the transformer block 0.3007 BLEU, achieving a score of 0.3062 on the Multi30K dataset.
Abstract（参考訳）: トランスフォーマーアーキテクチャは現代のニューラルネットワークの分野において不可欠な部分となり、テキスト生成、機械翻訳、画像およびオーディオ処理など、さまざまなタスクにおいて重要な役割を果たしている。ジェフ・ホーキンスによって提案され、新皮質で起こるプロセスにインスパイアされた、インテリジェントシステムを構築するための別のアプローチもある。本稿では,変換器の注意機構と変換器ブロックの出力において,RFB-kWTA や "Smart" Inhibition などのホメオスタシス機構を併用し,様々な点における変換器のスパース分散表現の導入を含む実験を行う。 RFB-kWTAは、時間を通して層活性化の統計を利用して、層全体を調整し、希少な活性化の値を高めながら、頻繁な活性化の値を減らす。「スマート」 Inhibitionはまた、活性化統計を用いてスパーシティマスクをサンプリングするが、より稀な活性化時間が活性化される可能性が高い。提案手法は従来の変圧器0.2768 BLEUよりも大幅に優れており,Multi30Kデータセットでは0.3062のスコアが得られた。

関連論文リスト

Attention-based Adversarial Robust Distillation in Radio Signal Classifications for Low-Power IoT Devices [28.874452850832213]
変換器をベースとした無線信号の分類は、敵の例と呼ばれる、知覚不能で慎重に構築された攻撃に対して脆弱であることを示す。本稿では,変圧器を用いた変調分類における逆例に対する防御システムを提案する。新しい手法は、頑健に訓練された大型変圧器からコンパクトな変圧器へ対向的な注意マップを転送することを目的としている。
論文参考訳（メタデータ） (2025-06-13T15:39:01Z)
Attention Is Not All You Need: The Importance of Feedforward Networks in Transformer Models [0.0]
最先端のモデルは100以上のトランスフォーマーブロックを持ち、何十億ものトレーニング可能なパラメータを含み、数兆のテキストトークンで訓練される。このようなブロックが少ない3層FFNを持つ変圧器ブロック構成を用いたモデルは、より少ない時間でより少ない総パラメータでトレーニング損失の少ない標準2層構成よりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-10T12:54:21Z)
SSTAF: Spatial-Spectral-Temporal Attention Fusion Transformer for Motor Imagery Classification [0.0]
脳電図に基づく運動画像分類における脳-コンピュータインタフェース(BCI)は、神経リハビリテーションと補助技術において有望な解決策を提供する。脳波信号の非定常特性と重要な物体間変動は、頑健な物体間分類モデルを開発する上で大きな課題を引き起こす。本稿では,上肢運動画像分類に特化して設計されたSSTAF変換器を提案する。
論文参考訳（メタデータ） (2025-04-17T07:45:14Z)
A temporal scale transformer framework for precise remaining useful life prediction in fuel cells [10.899223392837936]
TS Transformer (Temporal Scale Transformer) は、逆変換器(i Transformer)の拡張版である。各タイムステップを入力トークンとして扱う従来のトランスフォーマーとは異なり、TSTransformerは異なる長さのシーケンスを異なる段階のトークンにマッピングし、シーケンス間モデリングを行う。局所的な特徴抽出を改善し、時間スケールの特徴を捉え、トークン数と計算コストを削減する。
論文参考訳（メタデータ） (2025-04-08T23:42:54Z)
Spiking Transformer:Introducing Accurate Addition-Only Spiking Self-Attention for Transformer [15.93436166506258]
スパイキングニューラルネットワークは、従来のニューラルネットワークに代わる有望なエネルギー効率の代替として登場した。本稿では,A$2$OS$2$Aの精度付加型スパイク自己注意について紹介する。
論文参考訳（メタデータ） (2025-02-28T22:23:29Z)
Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0]
そこで本研究では,原型変圧器のアテンション機構を向上し,性能を向上させるための2つの新しい機構を提案する。第1のメカニズムは、トレーニング中のトークン類似度行列におけるトークン内関係の優先順位付けを低減し、トークン間焦点を増大させる。第2のメカニズムは、トークン類似性行列の学習可能な温度チューニングを導入し、固定温度値に関連する過度なスムーシング問題を緩和する。
論文参考訳（メタデータ） (2024-10-12T18:58:45Z)
Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文参考訳（メタデータ） (2023-11-20T17:35:44Z)
Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。このようなモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを実証する。
論文参考訳（メタデータ） (2023-10-06T16:34:51Z)
Towards Long-Term Time-Series Forecasting: Feature, Pattern, and Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。 LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文参考訳（メタデータ） (2023-01-05T13:59:29Z)
Effective Pre-Training Objectives for Transformer-based Autoencoders [97.99741848756302]
トランスフォーマーエンコーダの効率,コスト,精度のトレードオフについて検討する。共通の目的の機能を組み合わせて、新しい効果的な事前学習アプローチを作成します。
論文参考訳（メタデータ） (2022-10-24T18:39:44Z)
The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文参考訳（メタデータ） (2022-10-12T15:25:19Z)
Stabilizing Voltage in Power Distribution Networks via Multi-Agent Reinforcement Learning with Transformer [128.19212716007794]
本稿では,変圧器を用いたマルチエージェント・アクタ・クリティカル・フレームワーク(T-MAAC)を提案する。さらに、電圧制御タスクに適した新しい補助タスクトレーニングプロセスを採用し、サンプル効率を向上する。
論文参考訳（メタデータ） (2022-06-08T07:48:42Z)
The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文参考訳（メタデータ） (2021-10-25T17:01:29Z)
TCCT: Tightly-Coupled Convolutional Transformer on Time Series Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文参考訳（メタデータ） (2021-08-29T08:49:31Z)
Combining Transformer Generators with Convolutional Discriminators [9.83490307808789]
最近提案されたTransGANはトランスフォーマーアーキテクチャのみを使用した最初のGANである。 TransGANは、データ拡張、トレーニング中の補助的な超解像タスク、そして自己保持メカニズムを導く前にマスクを必要とする。我々は、よく知られたCNN識別器のベンチマークを行い、トランスフォーマーベースジェネレータのサイズを減らし、両方のアーキテクチャ要素をハイブリッドモデルに組み込むことにより、より良い結果をもたらすことを示す。
論文参考訳（メタデータ） (2021-05-21T07:56:59Z)
LocalViT: Analyzing Locality in Vision Transformers [101.53997555864822]
本稿では,視覚変換器における局所性メカニズムの影響について検討する。フィードフォワードネットワークに視覚変換器に局所性を加える。 ImageNet2012分類では、ローカリティ強化トランスフォーマーがベースラインを上回っている。
論文参考訳（メタデータ） (2021-04-12T17:59:22Z)
Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。 TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文参考訳（メタデータ） (2021-02-27T21:48:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。