論文の概要: RCMHA: Relative Convolutional Multi-Head Attention for Natural Language
Modelling
- arxiv url: http://arxiv.org/abs/2308.03429v1
- Date: Mon, 7 Aug 2023 09:24:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 14:23:08.726022
- Title: RCMHA: Relative Convolutional Multi-Head Attention for Natural Language
Modelling
- Title(参考訳): rcmha: 自然言語モデリングにおける相対畳み込み多頭注意
- Authors: Herman Sugiharto, Aradea, Husni Mubarok
- Abstract要約: 相対的マルチヘッドアテンション(RMHA)は、他のアテンションモジュールと比較して0.572のスコアを持つ。
RMHAは、3.5GBを必要とするRMHAを上回り、平均2.98GBの消費を誇っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Attention module finds common usage in language modeling, presenting
distinct challenges within the broader scope of Natural Language Processing.
Multi-Head Attention (MHA) employs an absolute positional encoding, which
imposes limitations on token length and entails substantial memory consumption
during the processing of embedded inputs. The current remedy proposed by
researchers involves the utilization of relative positional encoding, similar
to the approach adopted in Transformer-XL or Relative Multi-Head Attention
(RMHA), albeit the employed architecture consumes considerable memory
resources. To address these challenges, this study endeavors to refine MHA,
leveraging relative positional encoding in conjunction with the Depth-Wise
Convolutional Layer architecture, which promises heightened accuracy coupled
with minimized memory usage. The proposed RCMHA framework entails the
modification of two integral components: firstly, the application of the
Depth-Wise Convolutional Layer to the input embedding, encompassing Query, Key,
and Value parameters; secondly, the incorporation of Relative Positional
Encoding into the attention scoring phase, harmoniously integrated with Scaled
Dot-Product Attention. Empirical experiments underscore the advantages of
RCMHA, wherein it exhibits superior accuracy, boasting a score of 0.572 in
comparison to alternative attention modules such as MHA, Multi-DConv-Head
Attention (MDHA), and RMHA. Concerning memory utilization, RMHA emerges as the
most frugal, demonstrating an average consumption of 2.98 GB, surpassing RMHA
which necessitates 3.5 GB.
- Abstract(参考訳): Attentionモジュールは言語モデリングで一般的な使用法を見つけ、自然言語処理の幅広い範囲で異なる課題を提示している。
MHA(Multi-Head Attention)は絶対的な位置符号化を採用しており、トークン長に制限を課し、組み込み入力処理中にかなりのメモリ消費を伴っている。
研究者によって提案された現在の修正は、transform-xlやrelative multi-head attention (rmha)で採用されているアプローチと同様の相対的位置符号化の利用である。
これらの課題に対処するため,本研究では,メモリ使用量を最小限に抑えた精度向上を約束するDepth-Wise Convolutional Layerアーキテクチャと合わせて,相対的な位置エンコーディングを活用し,MHAを改良する試みを行った。
提案するrcmhaフレームワークは,まず,入力埋め込みへの奥行き方向畳み込み層の適用,クエリー,キー,値パラメータの包含,第2に,相対位置符号化をアテンションスコアリングフェーズに組み込み,スケールド・ドット製品アテンションと調和して統合する,2つの統合コンポーネントの修正を伴っている。
実証実験はRCMHAの利点を強調しており、MHA、MDHA、RMHAなどの他の注意モジュールと比較して0.572のスコアを誇っている。
メモリ利用に関して、rmhaは最も粗末で、平均2.98 gbの消費を示し、3.5 gbを必要とするrmhaを上回っている。
関連論文リスト
- Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Information-Theoretic Hashing for Zero-Shot Cross-Modal Retrieval [19.97731329580582]
本稿では,情報理論の観点から,共通のハミング空間を構築する(あるいは学習する)全く異なる方法を考える。
具体的には、AIAモジュールはPRI(Principle of Relevant Information)からインスピレーションを得て、異なるデータモダリティの本質的な意味を適応的に集約する共通空間を構築する。
我々のSPEモジュールはさらに、固有の意味論とKL(Kulback-Leibler)の相似性を保存することで、異なるモダリティのハッシュコードを生成する。
論文 参考訳(メタデータ) (2022-09-26T08:05:20Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Coarse-to-Fine Embedded PatchMatch and Multi-Scale Dynamic Aggregation
for Reference-based Super-Resolution [48.093500219958834]
参照型スーパーリゾリューションのためのAMSA(Accelerated Multi-Scale Aggregation Network)を提案する。
提案したAMSAは,定量評価と定性評価の両面において,最先端の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-12T08:40:23Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。