論文の概要: XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages
- arxiv url: http://arxiv.org/abs/2303.12308v1
- Date: Wed, 22 Mar 2023 04:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 15:20:31.112763
- Title: XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages
- Title(参考訳): XWikiGen:低リソース言語における百科事典テキスト生成のための言語間要約
- Authors: Dhaval Taunk, Shivprasad Sagare, Anupam Patil, Shivansh Subramanian,
Manish Gupta and Vasudeva Varma
- Abstract要約: ウィキペディアのテキスト生成に関する既存の研究は、英語の参考記事が要約されて英語のウィキペディアページを生成する場合のみに焦点が当てられている。
低リソース言語では、参照記事の不足は、この問題を解決する上でモノリンガル要約を効果的にしない。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクを提案する。
- 参考スコア(独自算出の注目度): 11.581072296148031
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lack of encyclopedic text contributors, especially on Wikipedia, makes
automated text generation for \emph{low resource (LR) languages} a critical
problem. Existing work on Wikipedia text generation has focused on
\emph{English only} where English reference articles are summarized to generate
English Wikipedia pages. But, for low-resource languages, the scarcity of
reference articles makes monolingual summarization ineffective in solving this
problem. Hence, in this work, we propose \task{}, which is the task of
cross-lingual multi-document summarization of text from multiple reference
articles, written in various languages, to generate Wikipedia-style text.
Accordingly, we contribute a benchmark dataset, \data{}, spanning $\sim$69K
Wikipedia articles covering five domains and eight languages. We harness this
dataset to train a two-stage system where the input is a set of citations and a
section title and the output is a section-specific LR summary. The proposed
system is based on a novel idea of neural unsupervised extractive summarization
to coarsely identify salient information followed by a neural abstractive model
to generate the section-specific text. Extensive experiments show that
multi-domain training is better than the multi-lingual setup on average.
- Abstract(参考訳): 百科事典のテキストコントリビュータの不足、特にウィキペディアでは、 \emph{low resource (LR)言語の自動テキスト生成が重要な問題となっている。
ウィキペディアのテキスト生成に関する既存の研究は、英語の参考記事が要約され、英語のウィキペディアページを生成することに焦点を当てている。
しかし、低リソース言語の場合、参照記事の不足は、この問題を解決する上でモノリンガル要約を効果的にしない。
そこで本研究では,様々な言語で記述された複数の参照記事からのテキストのクロスリンガル・マルチドキュメント要約のタスクである \task{} を提案し,wikipedia 形式のテキストを生成する。
したがって、5つのドメインと8つの言語をカバーする$\sim$69kのwikipediaの記事にまたがるベンチマークデータセットである \data{} をコントリビュートします。
このデータセットを用いて、入力が引用とセクションタイトルのセットであり、出力がセクション固有のLR要約である2段階システムのトレーニングを行う。
提案手法は,ニューラルネットワークによる非教師付き抽出要約という新たなアイデアに基づいて,有能な情報を粗く同定し,その後に神経抽象モデルを用いてセクション固有テキストを生成する。
大規模な実験により、マルチドメイントレーニングは、平均的なマルチ言語設定よりも優れていることが示された。
関連論文リスト
- MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - WikiMulti: a Corpus for Cross-Lingual Summarization [5.566656105144887]
言語間の要約は、異なる言語におけるソース文書の1つの言語で要約を生成するタスクである。
ウィキマルティ (WikiMulti) は、ウィキペディアの記事に基づく15言語による言語間要約のための新しいデータセットである。
論文 参考訳(メタデータ) (2022-04-23T16:47:48Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。