論文の概要: StableMask: Refining Causal Masking in Decoder-only Transformer
- arxiv url: http://arxiv.org/abs/2402.04779v1
- Date: Wed, 7 Feb 2024 12:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:38:47.684722
- Title: StableMask: Refining Causal Masking in Decoder-only Transformer
- Title(参考訳): StableMask:デコーダのみの変換器で因果マスキングを精錬する
- Authors: Qingyu Yin, Xuzheng He, Xiang Zhuang, Yu Zhao, Jianhua Yao, Xiaoyu
Shen, Qiang Zhang
- Abstract要約: 因果マスキングと相対位置符号化(RPE)を備えたデコーダのみのトランスフォーマーアーキテクチャは、言語モデリングにおいて事実上の選択肢となっている。
しかし、現在の埋め込みが十分な自己完結した情報を持っている場合でも、すべての注意スコアはゼロではなく1まで総和でなければならない。
因果マスクを精細化することで両方の制約に対処するパラメータフリー手法であるStableMaskを提案する。
- 参考スコア(独自算出の注目度): 22.75632485195928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The decoder-only Transformer architecture with causal masking and relative
position encoding (RPE) has become the de facto choice in language modeling.
Despite its exceptional performance across various tasks, we have identified
two limitations: First, it requires all attention scores to be non-zero and sum
up to 1, even if the current embedding has sufficient self-contained
information. This compels the model to assign disproportional excessive
attention to specific tokens. Second, RPE-based Transformers are not universal
approximators due to their limited capacity at encoding absolute positional
information, which limits their application in position-critical tasks. In this
work, we propose StableMask: a parameter-free method to address both
limitations by refining the causal mask. It introduces pseudo-attention values
to balance attention distributions and encodes absolute positional information
via a progressively decreasing mask ratio. StableMask's effectiveness is
validated both theoretically and empirically, showing significant enhancements
in language models with parameter sizes ranging from 71M to 1.4B across diverse
datasets and encoding methods. We further show that it naturally supports (1)
efficient extrapolation without special tricks such as StreamingLLM and (2)
easy integration with existing attention optimization techniques.
- Abstract(参考訳): 因果マスクと相対位置符号化(RPE)を備えたデコーダのみのトランスフォーマーアーキテクチャは、言語モデリングにおいて事実上の選択肢となっている。
まず、現在の埋め込みが十分な自己完結した情報を持っている場合でも、すべての注意点をゼロではないものと、最大1にまとめることが必要である。
これにより、特定のトークンに不均等な過剰な注意を割り当てるモデルが補完される。
第二に、RPEベースのトランスフォーマーは絶対位置情報を符号化する能力に限界があるため、位置クリティカルなタスクにおける応用を制限するため、普遍的な近似器ではない。
そこで本研究では,因果マスクの精錬により両限界に対処できるパラメータフリー手法であるstablemaskを提案する。
注意分布のバランスをとるために疑似注意値を導入し、徐々に減少するマスク比を通じて絶対位置情報を符号化する。
stablemaskの有効性は理論的にも実証的にも検証され、様々なデータセットとエンコーディングメソッドで71mから1.4bのパラメータサイズで言語モデルの大幅な拡張が示されている。
さらに,(1)streamingllmのような特別な手法を使わずに効率的な補間を自然にサポートし,(2)既存の注意最適化手法と容易に統合できることを示す。
関連論文リスト
- Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - DynaMask: Dynamic Mask Selection for Instance Segmentation [21.50329070835023]
我々は,各インスタンスに最適なマスク解像度を選択するために,計算コストを無視できるマスクスイッチモジュール(MSM)を開発した。
提案手法,すなわちDynaMaskは,高い計算オーバーヘッドで,他の最先端技術よりも一貫した,顕著なパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2023-03-14T13:01:25Z) - Efficient Masked Autoencoders with Self-Consistency [46.60180434598024]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおいて、強力で一般的な自己教師付き事前学習手法として認識されている。
自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,MIMの事前学習効率の向上と整合性の向上を図る。
EMAEは、オブジェクト検出やセマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送性能を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - MaiT: Leverage Attention Masks for More Efficient Image Transformers [4.400421753565953]
Masked attention image Transformer - MaiTでは、パラメータやFLOPが少ないCaiTと比較してトップ1の精度が最大1.7%向上し、Swinに比べてスループットが1.5倍向上した。
論文 参考訳(メタデータ) (2022-07-06T22:42:34Z) - ConvMAE: Masked Convolution Meets Masked Autoencoders [65.15953258300958]
機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放つことができる。
我々のConvMAEフレームワークは、マスクの自動符号化方式により、マルチスケールのハイブリッド畳み込み変換器がより識別的な表現を学習できることを実証している。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
論文 参考訳(メタデータ) (2022-05-08T15:12:19Z) - DecBERT: Enhancing the Language Understanding of BERT with Causal
Attention Masks [33.558503823505056]
本研究では,因果注意マスクを用いたBERTの位置符号化能力の向上に焦点をあてる。
本稿では,新たな事前学習型言語モデルDecBERTを提案し,GLUEベンチマークで評価する。
実験の結果,(1)因果注意マスクは言語理解タスクにおいてBERTに有効であること,(2)位置埋め込みのないDecBERTモデルはGLUEベンチマークで同等のパフォーマンスを達成できること,(3)修正によって事前学習プロセスが促進され,DecBERTはベースラインシステムよりも全体的な性能が向上すること,などが示されている。
論文 参考訳(メタデータ) (2022-04-19T06:12:48Z) - Masked Autoencoders for Point Cloud Self-supervised Learning [27.894216954216716]
本稿では,ポイントクラウドによる自己教師型学習のためのマスク付きオートエンコーダの巧妙なスキームを提案する。
入力点雲を不規則点パッチに分割し、ランダムに高い比で隠蔽する。
標準のトランスフォーマーベースのオートエンコーダは、非対称な設計とシフトマスクトークン操作を備え、非マスク点パッチから高い遅延特徴を学習する。
論文 参考訳(メタデータ) (2022-03-13T09:23:39Z) - Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。
当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。
私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文 参考訳(メタデータ) (2021-11-26T18:58:22Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。