論文の概要: Inference Strategies for Machine Translation with Conditional Masking
- arxiv url: http://arxiv.org/abs/2010.02352v2
- Date: Tue, 20 Oct 2020 15:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:40:04.721756
- Title: Inference Strategies for Machine Translation with Conditional Masking
- Title(参考訳): 条件付きマスキングを用いた機械翻訳の推論戦略
- Authors: Julia Kreutzer, George Foster, Colin Cherry
- Abstract要約: 条件付きマスク付き言語モデル(CMLM)トレーニングは、非自己回帰的および半自己回帰的シーケンス生成タスクで成功している。
部分配列の条件付き確率の因子化としてマスク推論を定式化する。
我々は、標準的な「マスク予測」アルゴリズムよりも有利なしきい値戦略を特定し、機械翻訳タスクにおけるその振る舞いを分析する。
- 参考スコア(独自算出の注目度): 17.214062755082068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional masked language model (CMLM) training has proven successful for
non-autoregressive and semi-autoregressive sequence generation tasks, such as
machine translation. Given a trained CMLM, however, it is not clear what the
best inference strategy is. We formulate masked inference as a factorization of
conditional probabilities of partial sequences, show that this does not harm
performance, and investigate a number of simple heuristics motivated by this
perspective. We identify a thresholding strategy that has advantages over the
standard "mask-predict" algorithm, and provide analyses of its behavior on
machine translation tasks.
- Abstract(参考訳): 条件付きマスク付き言語モデル(CMLM)訓練は機械翻訳などの非自己回帰的・半自己回帰的シーケンス生成タスクで成功している。
しかし、訓練されたCMLMを考えると、最良の推論戦略が何であるかは明らかではない。
マスキング推論を部分列の条件付き確率の分解として定式化し、これは性能に影響を与えないことを示し、この観点から動機付けられた多くの単純なヒューリスティックスを調査した。
標準のmask-predictアルゴリズムよりも有利なしきい値戦略を特定し,機械翻訳タスクにおけるその挙動の解析を行う。
関連論文リスト
- Improving Non-autoregressive Machine Translation with Error Exposure and
Consistency Regularization [13.38986769508059]
Conditional Masked Language Model (CMLM) はマスク付き低信頼トークンを再予測するためにマスク予測パラダイムを採用する。
CMLMは、トレーニングと推論の間のデータ分散の相違に悩まされる。
トレーニング中のモデル予測に基づいて混合シーケンスを構築し,不完全な観測条件下でのマスクトークンの最適化を提案する。
論文 参考訳(メタデータ) (2024-02-15T05:35:04Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - AMOM: Adaptive Masking over Masking for Conditional Masked Language
Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。
本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。
提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-03-13T20:34:56Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - On the Inductive Bias of Masked Language Modeling: From Statistical to
Syntactic Dependencies [8.370942516424817]
教師なしの方法でトークンをマスキングし予測することは、言語構造と下流のパフォーマンス向上をもたらす。
最近の理論では、予め訓練された言語モデルは、暗黙的にクローゼ還元として機能するマスクを介して有用な誘導バイアスを獲得することを示唆している。
本研究では,このようなクローゼのようなマスクだけでは,ランダムマスキング戦略の成功を説明できないことを示す。
論文 参考訳(メタデータ) (2021-04-12T17:55:27Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。