論文の概要: Unsupervised Text Style Transfer with Padded Masked Language Models
- arxiv url: http://arxiv.org/abs/2010.01054v1
- Date: Fri, 2 Oct 2020 15:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:33:30.133101
- Title: Unsupervised Text Style Transfer with Padded Masked Language Models
- Title(参考訳): Padded Masked Language Modelによる教師なしテキストスタイル変換
- Authors: Eric Malmi, Aliaksei Severyn, Sascha Rothe
- Abstract要約: Maskerは、スタイル転送のための教師なしのテキスト編集方法である。
完全に教師なしの設定で競争力を発揮する。
低リソース環境では、教師ありメソッドの精度を10%以上向上させる。
- 参考スコア(独自算出の注目度): 25.397832729384064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Masker, an unsupervised text-editing method for style transfer. To
tackle cases when no parallel source-target pairs are available, we train
masked language models (MLMs) for both the source and the target domain. Then
we find the text spans where the two models disagree the most in terms of
likelihood. This allows us to identify the source tokens to delete to transform
the source text to match the style of the target domain. The deleted tokens are
replaced with the target MLM, and by using a padded MLM variant, we avoid
having to predetermine the number of inserted tokens. Our experiments on
sentence fusion and sentiment transfer demonstrate that Masker performs
competitively in a fully unsupervised setting. Moreover, in low-resource
settings, it improves supervised methods' accuracy by over 10 percentage points
when pre-training them on silver training data generated by Masker.
- Abstract(参考訳): スタイル転送のための教師なしテキスト編集方式である masker を提案する。
パラレルソースとターゲットのペアが利用できない場合に対処するため、ソースとターゲットドメインの両方に対してマスキング言語モデル(MLM)をトレーニングします。
次に、2つのモデルが最も一致しないテキストスパンを見つけます。
これにより、削除するソーストークンを特定して、ターゲットドメインのスタイルにマッチするようにソーステキストを変換できます。
削除されたトークンはターゲットMLMに置き換えられ、パッド付きMLM変種を使用することで、挿入されたトークンの数を事前に決定する必要がない。
文の融合と感情伝達の実験は、Maskerが完全に教師なしの環境で競争力を発揮することを示した。
さらに、低リソース環境では、Maskerが生成した銀のトレーニングデータで事前にトレーニングした場合、教師ありメソッドの精度を10パーセント以上向上する。
関連論文リスト
- Unsupervised Text Style Transfer via LLMs and Attention Masking with
Multi-way Interactions [18.64326057581588]
非教師付きテキストスタイル転送(UTST)が自然言語処理(NLP)分野における重要な課題として浮上している。
本稿では,命令を調整したパイプライン・フレームワークであるLarge Language Models (LLMs) から注目マスキング・モデルへの知識蒸留,構築された並列例を用いたコンテキスト内学習の4つの方法を提案する。
これらのマルチウェイインタラクションは、スタイルの強さ、コンテンツ保存、テキストの流布といった観点から、ベースラインを改善することを実証的に示しています。
論文 参考訳(メタデータ) (2024-02-21T09:28:02Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - BiLMa: Bidirectional Local-Matching for Text-based Person
Re-identification [2.3931689873603603]
テキストベースの人物再識別(TBPReID)は、与えられたテキストクエリで表現された人物画像を取得することを目的としている。
画像やテキストをグローバルに、そしてローカルに効果的に整列する方法は、重要な課題だ。
TBPReIDモデルトレーニングにおいて,マスク付き画像モデリング(MIM)を協調的に最適化する双方向局所マッチング(LMa)フレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-09T04:01:24Z) - Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。
単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:31:02Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Replacing Language Model for Style Transfer [6.364517234783756]
テキストスタイル転送(TST)のためのシーケンス・ツー・シーケンス言語モデリングフレームワークである置換言語モデル(RLM)を導入する。
提案手法は,ソース文の各トークンを類似した意味を持つテキストスパンで自動回帰的に置き換える。
新しいスパンは非自己回帰型マスキング言語モデルによって生成され、置換されたトークンのローカルコンテキストの意味をよりよく保存することができる。
論文 参考訳(メタデータ) (2022-11-14T13:35:55Z) - CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文 参考訳(メタデータ) (2022-01-19T10:45:38Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Data Efficient Masked Language Modeling for Vision and Language [16.95631509102115]
Masked Language Modeling (MLM) は視覚言語訓練における重要なサブタスクの1つである。
クロスモーダル設定では、文中のトークンはランダムにマスキングされ、モデルは画像とテキストが与えられたマスキングトークンを予測する。
これらの欠点に対処するクロスモーダル設定に特有な代替マスキング戦略について検討する。
論文 参考訳(メタデータ) (2021-09-05T11:27:53Z) - Neural Mask Generator: Learning to Generate Adaptive Word Maskings for
Language Model Adaptation [63.195935452646815]
本稿では,自己教師付き事前学習のためのテキストのドメイン適応マスキングとタスク適応マスキングを自動生成する手法を提案する。
本稿では,マスキング政策を学習する新しい強化学習フレームワークを提案する。
我々はいくつかの質問応答とテキスト分類データセットに基づいてニューラルマスク生成器(NMG)を検証する。
論文 参考訳(メタデータ) (2020-10-06T13:27:01Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。