論文の概要: BERT-LSH: Reducing Absolute Compute For Attention
- arxiv url: http://arxiv.org/abs/2404.08836v1
- Date: Fri, 12 Apr 2024 22:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:32:47.964477
- Title: BERT-LSH: Reducing Absolute Compute For Attention
- Title(参考訳): BERT-LSH: 注意すべき絶対計算を減らす
- Authors: Zezheng Li, Kingston Yip,
- Abstract要約: 本研究では,局所感性ハッシュ(LSH)を組み込んだ新しいBERT-LSHモデルを提案する。
以上の結果から,BERT-LSHは,事前学習や微調整作業において,ベースラインモデルよりも予期せぬ性能を保ちながら,自己保持層の計算要求を著しく低減することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study introduces a novel BERT-LSH model that incorporates Locality Sensitive Hashing (LSH) to approximate the attention mechanism in the BERT architecture. We examine the computational efficiency and performance of this model compared to a standard baseline BERT model. Our findings reveal that BERT-LSH significantly reduces computational demand for the self-attention layer while unexpectedly outperforming the baseline model in pretraining and fine-tuning tasks. These results suggest that the LSH-based attention mechanism not only offers computational advantages but also may enhance the model's ability to generalize from its training data. For more information, visit our GitHub repository: https://github.com/leo4life2/algoml-final
- Abstract(参考訳): 本研究では,局所感性ハッシュ(LSH)を組み込んだ新しいBERT-LSHモデルを提案する。
本稿では,標準ベースラインBERTモデルと比較して,このモデルの計算効率と性能について検討する。
以上の結果から,BERT-LSHは,事前学習や微調整作業において,ベースラインモデルよりも予期せぬ性能を保ちながら,自己保持層の計算要求を著しく低減することがわかった。
これらの結果は、LSHに基づくアテンション機構は、計算上の利点を提供するだけでなく、トレーニングデータからモデルを一般化する能力を高める可能性があることを示唆している。
詳細はGitHubリポジトリを参照してほしい。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - EELBERT: Tiny Models through Dynamic Embeddings [0.28675177318965045]
EELBERTは、変換器ベースのモデル(例えばBERT)の圧縮のためのアプローチである。
これは、入力されたモデルの埋め込み層を動的、すなわちオンザフライの埋め込み計算に置き換えることによって達成される。
UNO-EELBERTは,完全に訓練されたBERT-tinyの4%以内でGLUEスコアを達成できる最小モデルである。
論文 参考訳(メタデータ) (2023-10-31T03:28:08Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - TrimBERT: Tailoring BERT for Trade-offs [6.068076825261616]
BERT-Baseにおける中間層数の削減は,下流タスクの微調整精度の低下を最小限に抑えることを示す。
さらに、自己アテンション層における全てのソフトマックス操作を、計算的にシンプルな代替品に置き換えることで、2つの重要なボトルネックを緩和する。
論文 参考訳(メタデータ) (2022-02-24T23:06:29Z) - BERTVision -- A Parameter-Efficient Approach for Question Answering [0.0]
本稿では,BERTファインチューニングの必要性を大幅に低減する,質問応答に対するパラメータ効率の高い手法を提案する。
提案手法では,各BERTトランス層の隠れ状態アクティベーションから得られる情報を用いて,典型的なBERT推論時に破棄される。
実験の結果,本手法は多岐にわたるQAだけでなく,分類にも有効であり,より広い範囲のタスクに向いていることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T17:16:25Z) - Deploying a BERT-based Query-Title Relevance Classifier in a Production
System: a View from the Trenches [3.1219977244201056]
変換器(BERT)モデルによる双方向表現は,多くの自然言語処理(NLP)タスクの性能を大幅に向上させてきた。
BERTを低レイテンシ、高スループットの産業用ユースケースにスケールすることは、その巨大なサイズのために困難である。
BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルによるデプロイメントのためのQTR分類器の最適化に成功した。
BertBiLSTMは、上記の実世界の生産作業における精度と効率の観点から、既成のBERTモデルの性能を上回る
論文 参考訳(メタデータ) (2021-08-23T14:28:23Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - Improving BERT with Self-Supervised Attention [10.096527622397504]
本稿では,SSA(Self-Supervised Attention)と呼ばれる新しい手法を提案する。
具体的には、SSAは、前回のイテレーションから微調整されたモデルを探索することにより、弱いトークンレベルのアテンションラベルを反復的に自動生成する。
実証的には、さまざまな公開データセットを通じて、SSA強化BERTモデルを使用して、大幅なパフォーマンス改善を図示します。
論文 参考訳(メタデータ) (2020-04-08T04:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。