Fugu-MT 論文翻訳(概要): Masking as an Efficient Alternative to Finetuning for Pretrained Language Models

論文の概要: Masking as an Efficient Alternative to Finetuning for Pretrained Language Models

arxiv url: http://arxiv.org/abs/2004.12406v2
Date: Sun, 11 Oct 2020 11:52:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-09 13:27:26.966119
Title: Masking as an Efficient Alternative to Finetuning for Pretrained Language Models
Title（参考訳）: 事前学習言語モデルにおけるファインタニングの効果的な代替手段としてのマスキング
Authors: Mengjie Zhao, Tao Lin, Fei Mi, Martin Jaggi, Hinrich Sch\"utze
Abstract要約: 我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
参考スコア（独自算出の注目度）: 49.64561153284428
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present an efficient method of utilizing pretrained language models, where we learn selective binary masks for pretrained weights in lieu of modifying them through finetuning. Extensive evaluations of masking BERT and RoBERTa on a series of NLP tasks show that our masking scheme yields performance comparable to finetuning, yet has a much smaller memory footprint when several tasks need to be inferred simultaneously. Through intrinsic evaluations, we show that representations computed by masked language models encode information necessary for solving downstream tasks. Analyzing the loss landscape, we show that masking and finetuning produce models that reside in minima that can be connected by a line segment with nearly constant test accuracy. This confirms that masking can be utilized as an efficient alternative to finetuning.
Abstract（参考訳）: 本研究では,事前学習した言語モデルを利用して,事前学習した重みに対する選択的な二項マスクを,微調整によって修正する手法を提案する。 NLPタスクにおけるBERTとRoBERTaの広範囲な評価は、マスキング方式は微調整に匹敵する性能を示すが、複数のタスクを同時に推論する必要がある場合のメモリフットプリントははるかに小さいことを示している。そこで本質的評価を通して,マスク言語モデルによって計算された表現が,下流課題の解決に必要な情報を符号化することを示す。ロスランドスケープの分析により,マスキングと微調整は,ほぼ一定のテスト精度で線分で接続可能なミニマ(minima)に存在するモデルを生成することが示された。これにより、マスキングをファインチューニングの効率的な代替手段として利用することができる。

関連論文リスト

Task-Informed Anti-Curriculum by Masking Improves Downstream Performance on Text [27.320746607958142]
マスケッド言語モデリングは、事前訓練言語モデルの教師なし手法として広く採用されている。本稿では,新しいタスク情報を用いた反カリキュラム学習手法に基づいて,マスキング率を調整し,マスクするトークンを決定することを提案する。
論文参考訳（メタデータ） (2025-02-18T15:36:16Z)
Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文参考訳（メタデータ） (2025-01-03T20:19:14Z)
Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。 MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文参考訳（メタデータ） (2023-06-12T18:12:19Z)
Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。 EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文参考訳（メタデータ） (2023-02-28T09:21:12Z)
Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文参考訳（メタデータ） (2022-11-23T07:04:41Z)
Meta Mask Correction for Nuclei Segmentation in Histopathological Image [5.36728433027615]
ノイズマスクを用いたデータを活用するメタラーニングに基づく新しい原子分割法を提案する。具体的には,ごく少量のクリーンなメタデータを用いてノイズマスクを修正可能な,従来のメタモデルの設計を行う。提案手法は, 最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2021-11-24T13:53:35Z)
Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-04-21T03:14:22Z)
UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文参考訳（メタデータ） (2020-02-28T15:28:49Z)
Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。 SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文参考訳（メタデータ） (2020-01-23T19:56:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。