論文の概要: Parallel Data Helps Neural Entity Coreference Resolution
- arxiv url: http://arxiv.org/abs/2305.17709v1
- Date: Sun, 28 May 2023 12:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 17:05:25.793550
- Title: Parallel Data Helps Neural Entity Coreference Resolution
- Title(参考訳): ニューラルエンティティの参照解決を支援する並列データ
- Authors: Gongbo Tang, Christian Hardmeier
- Abstract要約: 並列データからコア参照知識を利用するモデルを提案する。
アノテーションからコア参照を学習する従来のモジュールに加えて、言語間のコア参照知識をキャプチャする教師なしモジュールも導入する。
提案した言語間モデルでは,OntoNotes 5.0 の英語データセットにおいて,最大 1.74 ポイントで一貫した改善が達成されている。
- 参考スコア(独自算出の注目度): 1.0914300987810126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coreference resolution is the task of finding expressions that refer to the
same entity in a text. Coreference models are generally trained on monolingual
annotated data but annotating coreference is expensive and challenging.
Hardmeier et al.(2013) have shown that parallel data contains latent anaphoric
knowledge, but it has not been explored in end-to-end neural models yet. In
this paper, we propose a simple yet effective model to exploit coreference
knowledge from parallel data. In addition to the conventional modules learning
coreference from annotations, we introduce an unsupervised module to capture
cross-lingual coreference knowledge. Our proposed cross-lingual model achieves
consistent improvements, up to 1.74 percentage points, on the OntoNotes 5.0
English dataset using 9 different synthetic parallel datasets. These
experimental results confirm that parallel data can provide additional
coreference knowledge which is beneficial to coreference resolution tasks.
- Abstract(参考訳): コリファレンス解決(coreference resolution)とは、テキスト内の同じエンティティを参照する式を見つける作業である。
コリファレンスモデルは、一般的には単言語アノテートデータで訓練されるが、コリファレンスへのアノテートは高価かつ困難である。
Hardmeierら。
(2013) は、並列データが潜在照応的知識を含むことを示したが、エンドツーエンドのニューラルモデルではまだ研究されていない。
本稿では,並列データからコア参照知識を活用するための,シンプルで効果的なモデルを提案する。
アノテーションからコリファレンスを学ぶ従来のモジュールに加えて,言語間コリファレンス知識をキャプチャする教師なしモジュールも導入する。
提案手法は,9つの異なる合成並列データセットを用いて,OntoNotes 5.0の英語データセットに対して最大1.74ポイントの一貫した改善を実現する。
これらの実験結果から、並列データは、コリファレンス解決タスクに有用な追加のコリファレンス知識を提供できることが確認された。
関連論文リスト
- A Morphologically-Aware Dictionary-based Data Augmentation Technique for
Machine Translation of Under-Represented Languages [31.18983138590214]
本稿では,モルフォシンタクティック情報とバイリンガル辞書を用いて並列データを合成する手法を提案する。
我々の手法は、小さな並列シードデータによって支えられた現実的なシナリオに固執する。
文法的に正しい可能性が高い拡張データを作成することを目的としており、言語的に知らされている。
論文 参考訳(メタデータ) (2024-02-02T22:25:44Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - On the Role of Parallel Data in Cross-lingual Transfer Learning [30.737717433111776]
本稿では, 教師なし機械翻訳を用いて合成並列データを生成する方法について検討する。
モデルが生成した並列データでさえ、下流のタスクに役立ちます。
以上の結果から,既存の多言語モデルではモノリンガルデータの潜在能力を活用できないことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T11:23:04Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Tracing Origins: Coref-aware Machine Reading Comprehension [43.352833140317486]
そこで,本研究では,アナフォリック表現を接続する際の人間の読影過程を模倣し,コア参照情報を活用し,事前学習モデルから単語の埋め込みを強化する。
学習段階におけるコア参照情報の明示的な組み込みは,事前学習言語モデルの訓練において,コア参照情報の組み込みよりも優れていたことを実証した。
論文 参考訳(メタデータ) (2021-10-15T09:28:35Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。