論文の概要: AMOM: Adaptive Masking over Masking for Conditional Masked Language
Model
- arxiv url: http://arxiv.org/abs/2303.07457v1
- Date: Mon, 13 Mar 2023 20:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 17:31:58.623287
- Title: AMOM: Adaptive Masking over Masking for Conditional Masked Language
Model
- Title(参考訳): AMOM:条件付きマスキング言語モデルのための適応型マスキング
- Authors: Yisheng Xiao, Ruiyang Xu, Lijun Wu, Juntao Li, Tao Qin, Yan-Tie Liu,
Min Zhang
- Abstract要約: 条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。
本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。
提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
- 参考スコア(独自算出の注目度): 81.55294354206923
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformer-based autoregressive (AR) methods have achieved appealing
performance for varied sequence-to-sequence generation tasks, e.g., neural
machine translation, summarization, and code generation, but suffer from low
inference efficiency. To speed up the inference stage, many non-autoregressive
(NAR) strategies have been proposed in the past few years. Among them, the
conditional masked language model (CMLM) is one of the most versatile
frameworks, as it can support many different sequence generation scenarios and
achieve very competitive performance on these tasks. In this paper, we further
introduce a simple yet effective adaptive masking over masking strategy to
enhance the refinement capability of the decoder and make the encoder
optimization easier. Experiments on \textbf{3} different tasks (neural machine
translation, summarization, and code generation) with \textbf{15} datasets in
total confirm that our proposed simple method achieves significant performance
improvement over the strong CMLM model. Surprisingly, our proposed model yields
state-of-the-art performance on neural machine translation (\textbf{34.62} BLEU
on WMT16 EN$\to$RO, \textbf{34.82} BLEU on WMT16 RO$\to$EN, and \textbf{34.84}
BLEU on IWSLT De$\to$En) and even better performance than the \textbf{AR}
Transformer on \textbf{7} benchmark datasets with at least \textbf{2.2$\times$}
speedup. Our code is available at GitHub.
- Abstract(参考訳): トランスフォーマーベースの自己回帰(AR)法は、ニューラルマシン翻訳、要約、コード生成など、様々なシーケンス・ツー・シーケンス生成タスクに対して魅力的な性能を達成しているが、推論効率が低い。
推論段階を高速化するために、過去数年間に多くの非自己回帰(NAR)戦略が提案されている。
その中でも、条件付きマスマインド言語モデル(CMLM)は、多くの異なるシーケンス生成シナリオをサポートし、これらのタスクにおいて非常に競争力のあるパフォーマンスを達成するため、最も多用途なフレームワークの1つである。
本稿では,デコーダの高精細性を向上し,エンコーダの最適化を容易にするため,マスク方式よりもシンプルで効果的な適応マスキングを提案する。
textbf{3} の異なるタスク(ニューラル機械翻訳、要約、コード生成)と \textbf{15} のデータセットを総じて実験した結果、提案手法が強力な cmlm モデルよりも大幅に性能が向上していることが確認された。
驚くべきことに、提案されたモデルは、ニューラルネットワーク翻訳における最先端のパフォーマンス(wmt16 en$\to$ro, \textbf{34.82} bleu on wmt16 ro$\to$en, \textbf{34.84} bleu on iwslt de$\to$en)を与え、少なくとも \textbf{7} ベンチマークデータセット上の \textbf{ar} transformerよりも優れたパフォーマンスを得る。
私たちのコードはGitHubで入手可能です。
関連論文リスト
- Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - ACT-MNMT Auto-Constriction Turning for Multilingual Neural Machine
Translation [38.30649186517611]
この課題はtextbfunderlineAuto-textbfunderlineConstriction textbfunderlineTurning mechanism for textbfunderlineMultilingual textbfunderlineNeural textbfunderlineMachine textbfunderlineTranslation (model)を導入している。
論文 参考訳(メタデータ) (2024-03-11T14:10:57Z) - M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。
M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。
M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文 参考訳(メタデータ) (2023-11-29T11:30:33Z) - TranSFormer: Slow-Fast Transformer for Machine Translation [52.12212173775029]
本稿では,TrantextbfSFormerと呼ばれる2ストリーム学習モデルを提案する。
我々のTranSFormerは、複数の機械翻訳ベンチマークにおいて、BLEUの一貫性のある改善(BLEU点よりも大きい)を示す。
論文 参考訳(メタデータ) (2023-05-26T14:37:38Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Tractable Control for Autoregressive Language Generation [82.79160918147852]
本稿では,自動回帰テキスト生成モデルに語彙制約を課すために,トラクタブル確率モデル(TPM)を提案する。
本稿では,GeLaToが制約付きテキスト生成のための挑戦的ベンチマークにおいて,最先端のパフォーマンスを実現することを示す。
我々の研究は、大きな言語モデルを制御するための新しい道を開き、さらに表現力のあるTPMの開発を動機付けます。
論文 参考訳(メタデータ) (2023-04-15T00:19:44Z) - Universal Conditional Masked Language Pre-training for Neural Machine
Translation [29.334361879066602]
本稿では,大規模バイリンガルコーパスとモノリンガルコーパスを事前学習した条件付きマスク付き言語モデルCeMATを提案する。
我々は広範囲な実験を行い、CeMATがすべてのシナリオで大幅なパフォーマンス向上を達成できることを示します。
論文 参考訳(メタデータ) (2022-03-17T10:00:33Z) - MvSR-NAT: Multi-view Subset Regularization for Non-Autoregressive
Machine Translation [0.5586191108738562]
条件付きマスク付き言語モデル(CMLM)は、非自己回帰型機械翻訳(NAT)において顕著な進歩を示している。
NATモデルの性能向上のための新しい正規化手法であるMulti-view Subset Regularization (MvSR)を導入する。
我々は従来のNATモデルよりも0.36-1.14 BLEUが向上した3つの公開ベンチマークで顕著な性能を達成した。
論文 参考訳(メタデータ) (2021-08-19T02:30:38Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。