Fugu-MT 論文翻訳(概要): StableMask: Refining Causal Masking in Decoder-only Transformer

論文の概要: StableMask: Refining Causal Masking in Decoder-only Transformer

arxiv url: http://arxiv.org/abs/2402.04779v1
Date: Wed, 7 Feb 2024 12:01:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 15:38:47.684722
Title: StableMask: Refining Causal Masking in Decoder-only Transformer
Title（参考訳）: StableMask:デコーダのみの変換器で因果マスキングを精錬する
Authors: Qingyu Yin, Xuzheng He, Xiang Zhuang, Yu Zhao, Jianhua Yao, Xiaoyu Shen, Qiang Zhang
Abstract要約: 因果マスキングと相対位置符号化(RPE)を備えたデコーダのみのトランスフォーマーアーキテクチャは、言語モデリングにおいて事実上の選択肢となっている。しかし、現在の埋め込みが十分な自己完結した情報を持っている場合でも、すべての注意スコアはゼロではなく1まで総和でなければならない。因果マスクを精細化することで両方の制約に対処するパラメータフリー手法であるStableMaskを提案する。
参考スコア（独自算出の注目度）: 22.75632485195928
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The decoder-only Transformer architecture with causal masking and relative position encoding (RPE) has become the de facto choice in language modeling. Despite its exceptional performance across various tasks, we have identified two limitations: First, it requires all attention scores to be non-zero and sum up to 1, even if the current embedding has sufficient self-contained information. This compels the model to assign disproportional excessive attention to specific tokens. Second, RPE-based Transformers are not universal approximators due to their limited capacity at encoding absolute positional information, which limits their application in position-critical tasks. In this work, we propose StableMask: a parameter-free method to address both limitations by refining the causal mask. It introduces pseudo-attention values to balance attention distributions and encodes absolute positional information via a progressively decreasing mask ratio. StableMask's effectiveness is validated both theoretically and empirically, showing significant enhancements in language models with parameter sizes ranging from 71M to 1.4B across diverse datasets and encoding methods. We further show that it naturally supports (1) efficient extrapolation without special tricks such as StreamingLLM and (2) easy integration with existing attention optimization techniques.
Abstract（参考訳）: 因果マスクと相対位置符号化(RPE)を備えたデコーダのみのトランスフォーマーアーキテクチャは、言語モデリングにおいて事実上の選択肢となっている。まず、現在の埋め込みが十分な自己完結した情報を持っている場合でも、すべての注意点をゼロではないものと、最大1にまとめることが必要である。これにより、特定のトークンに不均等な過剰な注意を割り当てるモデルが補完される。第二に、RPEベースのトランスフォーマーは絶対位置情報を符号化する能力に限界があるため、位置クリティカルなタスクにおける応用を制限するため、普遍的な近似器ではない。そこで本研究では,因果マスクの精錬により両限界に対処できるパラメータフリー手法であるstablemaskを提案する。注意分布のバランスをとるために疑似注意値を導入し、徐々に減少するマスク比を通じて絶対位置情報を符号化する。 stablemaskの有効性は理論的にも実証的にも検証され、様々なデータセットとエンコーディングメソッドで71mから1.4bのパラメータサイズで言語モデルの大幅な拡張が示されている。さらに,(1)streamingllmのような特別な手法を使わずに効率的な補間を自然にサポートし,(2)既存の注意最適化手法と容易に統合できることを示す。

関連論文リスト

DAM: Dynamic Attention Mask for Long-Context Large Language Model Inference Acceleration [12.172968576254469]
本稿では,アダプティブマスクをアダプティブマップレベルで割り当てる動的スパースアテンション機構を提案する。コンテキスト認識型アテンション構造を学習することにより、フルアテンションモデルとの高アライメントを実現し、パフォーマンスの低下を最小限に抑える。このアプローチは、大規模言語モデルの実践的な展開を可能にする、フルアテンションに代わるスケーラブルな代替手段を提供する。
論文参考訳（メタデータ） (2025-06-06T20:24:36Z)
Enhancing DNA Foundation Models to Address Masking Inefficiencies [18.54660252939211]
マスク付きオートエンコーダフレームワークをベースとした改良型エンコーダデコーダアーキテクチャを提案する。我々は,BIOSCAN-5Mデータセットに対するアプローチを,200万以上のユニークなDNAバーコードから評価した。
論文参考訳（メタデータ） (2025-02-25T17:56:25Z)
AM-SAM: Automated Prompting and Mask Calibration for Segment Anything Model [28.343378406337077]
AM-SAMと呼ばれる自動プロンプトとマスクの校正手法を提案する。提案手法は入力画像のプロンプトを自動生成し,早期訓練における人的関与の必要性を解消する。実験の結果,AM-SAMは,人為的および既定のプロンプトの有効性,マッチング,あるいは超越した精度のセグメンテーションを達成できた。
論文参考訳（メタデータ） (2024-10-13T03:47:20Z)
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。 ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文参考訳（メタデータ） (2024-07-08T12:28:56Z)
Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information [5.756323337411276]
大規模言語モデル(LLM)は、機械翻訳、テキスト生成、感情分析などの高度な自然言語処理タスクを持つ。数十億のパラメータで構成されるその大きなサイズは、ストレージ、計算、デプロイメントの課題を提起する。我々は,LLMの効率的なブロックワイズ後量子化のための新しいアルゴリズムであるAthenaを提案する。
論文参考訳（メタデータ） (2024-05-24T03:14:29Z)
Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。 Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文参考訳（メタデータ） (2024-04-23T01:34:20Z)
Towards Compact 3D Representations via Point Feature Enhancement Masked Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。 Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文参考訳（メタデータ） (2023-12-17T14:17:05Z)
Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。 EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文参考訳（メタデータ） (2023-02-28T09:21:12Z)
Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文参考訳（メタデータ） (2022-11-08T18:14:04Z)
DecBERT: Enhancing the Language Understanding of BERT with Causal Attention Masks [33.558503823505056]
本研究では,因果注意マスクを用いたBERTの位置符号化能力の向上に焦点をあてる。本稿では,新たな事前学習型言語モデルDecBERTを提案し,GLUEベンチマークで評価する。実験の結果,(1)因果注意マスクは言語理解タスクにおいてBERTに有効であること,(2)位置埋め込みのないDecBERTモデルはGLUEベンチマークで同等のパフォーマンスを達成できること,(3)修正によって事前学習プロセスが促進され,DecBERTはベースラインシステムよりも全体的な性能が向上すること,などが示されている。
論文参考訳（メタデータ） (2022-04-19T06:12:48Z)
Masked Autoencoders for Point Cloud Self-supervised Learning [27.894216954216716]
本稿では,ポイントクラウドによる自己教師型学習のためのマスク付きオートエンコーダの巧妙なスキームを提案する。入力点雲を不規則点パッチに分割し、ランダムに高い比で隠蔽する。標準のトランスフォーマーベースのオートエンコーダは、非対称な設計とシフトマスクトークン操作を備え、非マスク点パッチから高い遅延特徴を学習する。
論文参考訳（メタデータ） (2022-03-13T09:23:39Z)
Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文参考訳（メタデータ） (2021-11-11T18:46:40Z)
Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文参考訳（メタデータ） (2021-04-28T13:17:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。