論文の概要: Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More
- arxiv url: http://arxiv.org/abs/2502.07490v1
- Date: Tue, 11 Feb 2025 11:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:58.722480
- Title: Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More
- Title(参考訳): マスクによる自己回帰予測の強化:もっと学ぶために注意を払わない
- Authors: Xialie Zhuang, Zhikai Jia, Jianjin Li, Zhenyu Zhang, Li Shen, Zheng Cao, Shiwei Liu,
- Abstract要約: Mask-Enhanced Autoregressive Prediction (MEAP)は、MLM(Masked Language Modeling)をNTP(Next-Token Prediction)にシームレスに統合する訓練パラダイムである。
集中的な実験では、MEAPはキー情報検索と長文推論タスクにおいてNTPを大幅に上回っている。
分析の結果,MEAPの有効性は,非マスキングトークンの少ないセットに集中することにより,より目立たしい注意点の獲得に寄与することが示唆された。
- 参考スコア(独自算出の注目度): 26.226145789963443
- License:
- Abstract: Large Language Models (LLMs) are discovered to suffer from accurately retrieving key information. To address this, we propose Mask-Enhanced Autoregressive Prediction (MEAP), a simple yet effective training paradigm that seamlessly integrates Masked Language Modeling (MLM) into Next-Token Prediction (NTP) to enhance the latter's in-context retrieval capabilities. Specifically, MEAP first randomly masks a small fraction of input tokens and then directly performs the standard next-token prediction autoregressive using a decoder-only Transformer. MEAP eliminates the need for bidirectional attention or encoder-decoder architectures for MLM, incurring no additional computational overhead during pre-training or inference. Intensive experiments demonstrate that MEAP substantially outperforms NTP on key information retrieval and long-context reasoning tasks, while performing on par or better on commonsense reasoning tasks. The benefits of MEAP also extend to supervised fine-tuning, where it shows remarkable advantages in lost-in-the-middle scenarios, outperforming NTP by 11.77 percentage points. Our analysis indicates that MEAP's effectiveness arises from its ability to promote more distinguishable attention scores by concentrating on a reduced set of non-masked tokens. This mechanism improves the model's focus on task-relevant signals while mitigating the influence of peripheral context. These findings position MEAP as a promising training paradigm for large language models.
- Abstract(参考訳): LLM(Large Language Models)は、キー情報を正確に取り出すのに苦しむ。
そこで本稿では,Masked Language Modeling (MLM) をNext-Token Prediction (NTP) にシームレスに統合し,テキスト内検索機能を強化する,シンプルかつ効果的なトレーニングパラダイムである Mask-Enhanced Autoregressive Prediction (MEAP) を提案する。
具体的には、MEAPはまず少数の入力トークンをランダムにマスクし、デコーダのみのトランスフォーマーを使用して、標準の次世代予測自動回帰を実行する。
MEAPは、MLMのための双方向の注意やエンコーダ・デコーダ・アーキテクチャの必要性を排除し、事前トレーニングや推論中に計算オーバーヘッドを発生させない。
集中的な実験により、MEAPはキー情報検索や長文推論タスクにおいてNTPを大幅に上回っている一方で、常識推論タスクでは同等以上のパフォーマンスを示している。
MEAPの利点は監督された微調整にまで拡張され、中途半端なシナリオにおいて顕著な優位性を示し、NTPを11.77ポイント上回っている。
分析の結果,MEAPの有効性は,非マスキングトークンの少ないセットに集中することにより,より目立たしい注意点の獲得に寄与することが示唆された。
このメカニズムは、周辺環境の影響を緩和しながら、タスク関連信号に対するモデルの焦点を改善する。
これらの結果から,MEAPは大規模言語モデルのトレーニングパラダイムとして有望であると考えられた。
関連論文リスト
- Pin-Tuning: Parameter-Efficient In-Context Tuning for Few-Shot Molecular Property Prediction [25.436047251446023]
そこで本研究では,Pin-Tuningというパラメータ効率の高いインコンテキストチューニング手法を提案する。
具体的には、事前訓練されたメッセージパッシング層(MP-Adapter)のための軽量アダプタと、事前訓練された原子/結合層(Emb-BWC)のためのベイズ重み統合を提案する。
公開データセットで評価すると、トレーニング可能なパラメータが少なくて優れたチューニングが示され、少数ショットの予測性能が向上する。
論文 参考訳(メタデータ) (2024-11-02T07:06:30Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Emerging Property of Masked Token for Effective Pre-training [15.846621577804791]
Masked Image Modeling (MIM)はコンピュータビジョンにおける最近のブレークスルーの推進に役立っている。
MIMの全体的な効率は、トレーニング前のフェーズの長い持続時間によって妨げられることがある。
本稿では,マスクトークンの重み付けとキー特性の強化によるモデル効率の向上を目的として,マスクトークン最適化(MTO)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-12T08:46:53Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Retrieval Oriented Masking Pre-training Language Model for Dense Passage
Retrieval [16.592276887533714]
Masked Language Modeling (MLM) は、事前学習プロセスの主要なサブタスクである。
従来のランダムマスキング戦略は、パス検索タスクに制限のある多数のトークンを選択する傾向にある。
本稿では,より重要なトークンがマスクアウトされる確率の高い検索指向マスキング(ROM)戦略を提案する。
論文 参考訳(メタデータ) (2022-10-27T02:43:48Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - PMI-Masking: Principled masking of correlated spans [46.36098771676867]
ランダムなマスキングトークンは、マスキング言語モデル(MLM)の事前訓練における共通の欠陥を構成する
我々はPMI(Pointwise Mutual Information)の概念に基づくマスク方式PMI-Maskingを提案する。
PMI-Maskingはトレーニング時間の半分の時間で従来のマスキング手法の性能に到達し、トレーニング終了時の性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2020-10-05T07:19:52Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。