論文の概要: Sequence-to-Sequence Lexical Normalization with Multilingual
Transformers
- arxiv url: http://arxiv.org/abs/2110.02869v1
- Date: Wed, 6 Oct 2021 15:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 20:13:05.906504
- Title: Sequence-to-Sequence Lexical Normalization with Multilingual
Transformers
- Title(参考訳): 多言語トランスフォーマーを用いたシーケンスからシーケンスまでの語彙正規化
- Authors: Ana-Maria Bucur, Adrian Cosma and Liviu P. Dinu
- Abstract要約: 現在の自然言語処理のベンチマークタスクには、非公式な日々のデジタルコミュニケーションで使用されるテキストと質的に異なるテキストが含まれている。
この不一致は、実世界のデータに基づいて微調整された場合、最先端のNLPモデルの大幅な性能劣化を引き起こした。
機械翻訳問題として,mBARTに基づく文レベルのシーケンス・ツー・シーケンスモデルを提案する。
- 参考スコア(独自算出の注目度): 3.3302293148249125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current benchmark tasks for natural language processing contain text that is
qualitatively different from the text used in informal day to day digital
communication. This discrepancy has led to severe performance degradation of
state-of-the-art NLP models when fine-tuned on real-world data. One way to
resolve this issue is through lexical normalization, which is the process of
transforming non-standard text, usually from social media, into a more
standardized form. In this work, we propose a sentence-level
sequence-to-sequence model based on mBART, which frames the problem as a
machine translation problem. As the noisy text is a pervasive problem across
languages, not just English, we leverage the multi-lingual pre-training of
mBART to fine-tune it to our data. While current approaches mainly operate at
the word or subword level, we argue that this approach is straightforward from
a technical standpoint and builds upon existing pre-trained transformer
networks. Our results show that while word-level, intrinsic, performance
evaluation is behind other methods, our model improves performance on
extrinsic, downstream tasks through normalization compared to models operating
on raw, unprocessed, social media text.
- Abstract(参考訳): 現在の自然言語処理のベンチマークタスクには、非公式のデジタル通信で使われるテキストと質的に異なるテキストが含まれている。
この不一致は、実世界のデータに基づいて微調整された場合、最先端のNLPモデルの大幅な性能劣化を引き起こした。
この問題を解決する方法の1つは、非標準テキスト(通常はソーシャルメディアから)をより標準化された形式に変換する過程である語彙正規化である。
本研究では,この問題を機械翻訳問題として扱うmbartに基づく文レベルのシーケンス・ツー・シーケンスモデルを提案する。
ノイズの多いテキストは、英語だけでなく言語全体に広がる問題なので、mBARTの多言語事前学習を利用して、データを微調整します。
現在のアプローチは主に単語やサブワードレベルで運用されているが、このアプローチは技術的な観点からは単純であり、既存のトレーニング済みトランスフォーマーネットワークの上に構築されていると論じる。
以上の結果から,単語レベル,本質的,パフォーマンス評価は他の手法の裏側にあるが,本モデルでは,生の未処理のソーシャルメディアテキスト上で動作しているモデルと比較して,正規化による外在的,下流タスクの性能向上を図っている。
関連論文リスト
- Plug, Play, and Fuse: Zero-Shot Joint Decoding via Word-Level Re-ranking Across Diverse Vocabularies [12.843274390224853]
マルチモーダル翻訳のような現実世界のタスクは、翻訳と画像処理の両方を扱うなど、これらの強みの組み合わせを必要とすることが多い。
新たなゼロショットアンサンブル戦略を提案し,デコードフェーズにおいて,追加のトレーニングを必要とせずに,異なるモデルの統合を可能にする。
提案手法では,単語レベルでのスコアを組み合わせ,単語がいつ完了するかをマルチモーダルで予測することで,復号中にビームを再ランクする。
論文 参考訳(メタデータ) (2024-08-21T04:20:55Z) - TAMS: Translation-Assisted Morphological Segmentation [3.666125285899499]
正準形態素セグメンテーションのためのシーケンス・ツー・シーケンスモデルを提案する。
我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。
高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。
論文 参考訳(メタデータ) (2024-03-21T21:23:35Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Time-Stamped Language Model: Teaching Language Models to Understand the
Flow of Events [8.655294504286635]
我々はこの課題を質問応答問題として定式化することを提案する。
これにより、手続き的テキスト理解に適応することで、他のQAベンチマークで事前訓練された言語モデルを使用することができる。
Proparaデータセットで評価したモデルでは、F1スコアが3.1%上昇した状態での公開結果の改善が示されている。
論文 参考訳(メタデータ) (2021-04-15T17:50:41Z) - Neural Inverse Text Normalization [11.240669509034298]
逆テキスト正規化のための効率的かつ堅牢なニューラルソリューションを提案する。
言語の専門家が手作業でカリキュラムを作成する必要なく、他の言語に簡単に拡張できることが示される。
プリトレーニングと融合したトランスベースモデルは、複数のデータセットで一貫して低いwerを達成する。
論文 参考訳(メタデータ) (2021-02-12T07:53:53Z) - Controlling Hallucinations at Word Level in Data-to-Text Generation [10.59137381324694]
最先端のニューラルモデルには、アウトプットに誤解を招くステートメントが含まれている。
本稿では,単語レベルのラベルを利用して各トレーニングインスタンスの関連部分を学習できるマルチブランチデコーダを提案する。
我々のモデルは、生成したテキストの流布とコヒーレンスを維持しながら、幻覚を減らし制御することができる。
論文 参考訳(メタデータ) (2021-02-04T18:58:28Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。