論文の概要: Ensemble Transfer Learning for Multilingual Coreference Resolution
- arxiv url: http://arxiv.org/abs/2301.09175v1
- Date: Sun, 22 Jan 2023 18:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:37:03.665283
- Title: Ensemble Transfer Learning for Multilingual Coreference Resolution
- Title(参考訳): 多言語共参照解決のためのアンサンブル転送学習
- Authors: Tuan Manh Lai, Heng Ji
- Abstract要約: 非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
- 参考スコア(独自算出の注目度): 60.409789753164944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity coreference resolution is an important research problem with many
applications, including information extraction and question answering.
Coreference resolution for English has been studied extensively. However, there
is relatively little work for other languages. A problem that frequently occurs
when working with a non-English language is the scarcity of annotated training
data. To overcome this challenge, we design a simple but effective
ensemble-based framework that combines various transfer learning (TL)
techniques. We first train several models using different TL methods. Then,
during inference, we compute the unweighted average scores of the models'
predictions to extract the final set of predicted clusters. Furthermore, we
also propose a low-cost TL method that bootstraps coreference resolution models
by utilizing Wikipedia anchor texts. Leveraging the idea that the coreferential
links naturally exist between anchor texts pointing to the same article, our
method builds a sizeable distantly-supervised dataset for the target language
that consists of tens of thousands of documents. We can pre-train a model on
the pseudo-labeled dataset before finetuning it on the final target dataset.
Experimental results on two benchmark datasets, OntoNotes and SemEval, confirm
the effectiveness of our methods. Our best ensembles consistently outperform
the baseline approach of simple training by up to 7.68% in the F1 score. These
ensembles also achieve new state-of-the-art results for three languages:
Arabic, Dutch, and Spanish.
- Abstract(参考訳): エンティティコリファレンス解決は、情報抽出や質問応答など、多くのアプリケーションにおいて重要な研究課題である。
英語の基準解決法は広く研究されている。
しかし、他の言語に対する作業は比較的少ない。
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
この課題を克服するために,さまざまなトランスファーラーニング(TL)技術を組み合わせた,シンプルで効果的なアンサンブルベースのフレームワークを設計する。
まず、異なるTL法を用いて複数のモデルを訓練する。
次に,モデル予測の未重み付き平均スコアを計算し,予測クラスタの最終的な集合を抽出する。
さらに,wikipediaのアンカーテキストを利用してコリファレンス解決モデルをブートストラップする低コストtl手法を提案する。
提案手法では,同じ記事を指すアンカーテキスト間でコアファーデンシャルリンクが自然に存在するという考えを活かして,数万の文書からなるターゲット言語のための,大きめの遠隔教師付きデータセットを構築する。
擬似ラベル付きデータセット上でモデルを事前トレーニングし、最終ターゲットデータセットで微調整する。
OntoNotesとSemEvalという2つのベンチマークデータセットの実験結果から,本手法の有効性が確認された。
私たちのベストアンサンブルは、F1スコアの7.68%までの単純なトレーニングのベースラインアプローチを一貫して上回ります。
これらのアンサンブルはまた、アラビア語、オランダ語、スペイン語の3つの言語で最新の結果を達成している。
関連論文リスト
- CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+
Language Pairs [27.574815708395203]
CrossSumは1500以上の言語対の1,68万記事要約サンプルからなる大規模言語間要約データセットである。
我々は、多言語抽象要約データセットからのクロス言語検索により、異なる言語で記述された並列記事の整列により、クロスサムを作成する。
対象言語における記事の要約が可能な言語間要約モデルを効果的に学習する多段階データサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-16T11:40:36Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - A Survey of Recent Abstract Summarization Techniques [0.0]
英語とインドネシア語のウィキペディアデータセットに対する事前学習モデルの影響について検討する。
ROUGEのパフォーマンスに影響を与える最も重要な要因は、カバレッジ、密度、圧縮です。
T5-Large、Pegasus-XSum、ProphetNet-CNNDMは最高の要約を提供する。
論文 参考訳(メタデータ) (2021-04-15T20:01:34Z) - Cross-lingual Approach to Abstractive Summarization [0.0]
言語間モデル転送は低リソース言語でうまく適用できる。
深層ニューラルネットワークとシークエンス・トゥ・シークエンスアーキテクチャに基づく事前学習型英語要約モデルを用いた。
対象言語データに異なる比率のモデルを開発し,微調整を行った。
論文 参考訳(メタデータ) (2020-12-08T09:30:38Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。