論文の概要: Neural semi-Markov CRF for Monolingual Word Alignment
- arxiv url: http://arxiv.org/abs/2106.02569v1
- Date: Fri, 4 Jun 2021 16:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:06:26.518230
- Title: Neural semi-Markov CRF for Monolingual Word Alignment
- Title(参考訳): 単言語単語アライメントのためのニューラルセミマルコフCRF
- Authors: Wuwei Lan, Chao Jiang, Wei Xu
- Abstract要約: 可変長スパンによる単語と句のアライメントを統一するニューラルセミマルコフCRFアライメントモデルを提案する。
また、人間のアノテーションによる新しいベンチマークを作成し、4つの異なるテキストジャンルをカバーし、モノリンガルな単語アライメントモデルを評価する。
- 参考スコア(独自算出の注目度): 20.897157172049877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monolingual word alignment is important for studying fine-grained editing
operations (i.e., deletion, addition, and substitution) in text-to-text
generation tasks, such as paraphrase generation, text simplification,
neutralizing biased language, etc. In this paper, we present a novel neural
semi-Markov CRF alignment model, which unifies word and phrase alignments
through variable-length spans. We also create a new benchmark with human
annotations that cover four different text genres to evaluate monolingual word
alignment models in more realistic settings. Experimental results show that our
proposed model outperforms all previous approaches for monolingual word
alignment as well as a competitive QA-based baseline, which was previously only
applied to bilingual data. Our model demonstrates good generalizability to
three out-of-domain datasets and shows great utility in two downstream
applications: automatic text simplification and sentence pair classification
tasks.
- Abstract(参考訳): 単言語単語アライメントは、パラフレーズ生成、テキストの単純化、バイアス言語を中和するなど、テキストからテキスト生成タスクにおけるきめ細かい編集操作(削除、追加、置換)を研究する上で重要である。
本稿では,可変長スパンによる単語と句のアライメントを統一するニューラルセミマルコフCRFアライメントモデルを提案する。
また、4つの異なるテキストジャンルをカバーするヒューマンアノテーションによる新しいベンチマークを作成し、より現実的な設定で単言語単語アライメントモデルを評価する。
実験の結果,提案手法は,従来はバイリンガルデータにのみ適用されていた,単言語単語アライメントと競合するQAベースラインにおいて,従来の手法よりも優れていた。
本モデルは,3つのドメイン外のデータセットに対して優れた一般化性を示し,自動テキスト単純化と文ペア分類タスクという2つのダウンストリームアプリケーションに優れた有用性を示す。
関連論文リスト
- Unsupervised Lexical Simplification with Context Augmentation [55.318201742039]
対象単語とその文脈が与えられた場合、対象コンテキストと単言語データからサンプル化した追加コンテキストに基づいて置換語を生成する。
我々は、TSAR-2022共有タスクにおいて、英語、ポルトガル語、スペイン語で実験を行い、我々のモデルは、すべての言語で、他の教師なしシステムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-11-01T05:48:05Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Improving Language Generation with Sentence Coherence Objective [4.997730662279843]
既存のモデルは、与えられたプロンプトから徐々に分岐するテキストの段落を出力する傾向がある。
このプロジェクトの目的は、言語生成モデルにおける文間の一貫性と一貫性を改善することである。
論文 参考訳(メタデータ) (2020-09-07T06:10:03Z) - IIT Gandhinagar at SemEval-2020 Task 9: Code-Mixed Sentiment
Classification Using Candidate Sentence Generation and Selection [1.2301855531996841]
コードミキシングは、非標準の書き込みスタイルのためにテキストの感情を分析することの難しさを増す。
本稿では,Bi-LSTMに基づくニューラル分類器上での文生成と選択に基づく提案手法を提案する。
提案手法は,Bi-LSTMに基づくニューラル分類器と比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-25T14:59:47Z) - Neural CRF Model for Sentence Alignment in Text Simplification [31.62648025127563]
我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2020-05-05T16:47:51Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。