論文の概要: BoostTransformer: Enhancing Transformer Models with Subgrid Selection and Importance Sampling
- arxiv url: http://arxiv.org/abs/2508.02924v2
- Date: Fri, 08 Aug 2025 18:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 13:12:52.256247
- Title: BoostTransformer: Enhancing Transformer Models with Subgrid Selection and Importance Sampling
- Title(参考訳): Boost Transformer: サブグリッド選択と重要サンプリングによるトランスフォーマモデルの強化
- Authors: Biyi Fang, Jean Utke, Truong Vo, Diego Klabjan,
- Abstract要約: BoostTransformerは、サブグリッドトークンの選択と重要度の高いサンプリングを通じて、トランスフォーマーを強化します。
提案手法はトランスパイプラインに直接最小2乗推進目標を組み込むことで,より効率的なトレーニングと性能向上を実現している。
- 参考スコア(独自算出の注目度): 11.246174442827282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architectures dominate modern NLP but often demand heavy computational resources and intricate hyperparameter tuning. To mitigate these challenges, we propose a novel framework, BoostTransformer, that augments transformers with boosting principles through subgrid token selection and importance-weighted sampling. Our method incorporates a least square boosting objective directly into the transformer pipeline, enabling more efficient training and improved performance. Across multiple fine-grained text classification benchmarks, BoostTransformer demonstrates both faster convergence and higher accuracy, surpassing standard transformers while minimizing architectural search overhead.
- Abstract(参考訳): トランスフォーマーアーキテクチャは現代のNLPを支配しているが、しばしば重い計算資源と複雑なハイパーパラメータチューニングを必要とする。
これらの課題を軽減するために、サブグリッドトークンの選択と重要度重み付けサンプリングによってトランスフォーマーを向上する新しいフレームワークBoostTransformerを提案する。
提案手法はトランスパイプラインに直接最小2乗推進目標を組み込むことで,より効率的なトレーニングと性能向上を実現している。
複数のきめ細かいテキスト分類ベンチマークの中で、BoostTransformerは、より高速な収束と高い精度の両方を示し、標準的なトランスフォーマーを越えながら、アーキテクチャ的な検索オーバーヘッドを最小限にしている。
関連論文リスト
- Chain-of-Thought Enhanced Shallow Transformers for Wireless Symbol Detection [14.363929799618283]
無線シンボル検出のためのCoT拡張浅層変圧器フレームワークCHOOSE(CHain Of thOught Symbol dEtection)を提案する。
隠れ空間内に自己回帰潜在推論ステップを導入することで、CHOOSEは浅いモデルの推論能力を大幅に改善する。
実験により,本手法は従来の浅層変圧器よりも優れ,深部変圧器に匹敵する性能が得られることが示された。
論文 参考訳(メタデータ) (2025-06-26T08:41:45Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - AlgoFormer: An Efficient Transformer Framework with Algorithmic Structures [80.28359222380733]
アルゴリズム機能を備えたトランスフォーマーを実現するために,AlgoFormerと呼ばれる新しいトランスフォーマーフレームワークを設計する。
特に、人間の設計した学習アルゴリズムの構造に触発されて、我々のトランスフォーマーフレームワークは、タスク前処理に責任を持つ事前変換器で構成されています。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーがアルゴリズム表現と学習を行う可能性があることを示すために提示される。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - Enhanced Transformer Architecture for Natural Language Processing [2.6071653283020915]
Transformerは自然言語処理(NLP)分野における最先端モデルである
本稿では,トランスフォーマーの新たな構造を提案し,全層正規化,重み付け残差接続,強化学習を利用した位置符号化,マスク付き自己注意が特徴である。
The proposed Transformer model, called Enhanced Transformer, is confirmeded by the bilingual evaluation understudy (BLEU) score obtained with the Multi30k translation dataset。
論文 参考訳(メタデータ) (2023-10-17T01:59:07Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - ByteTransformer: A High-Performance Transformer Boosted for
Variable-Length Inputs [6.9136984255301]
可変長入力のために強化された高性能トランスであるByteTransformerを提案する。
ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
論文 参考訳(メタデータ) (2022-10-06T16:57:23Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。