論文の概要: WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization
- arxiv url: http://arxiv.org/abs/2010.03093v1
- Date: Wed, 7 Oct 2020 00:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:01:54.465562
- Title: WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization
- Title(参考訳): WikiLingua: 言語間抽象要約のためのベンチマークデータセット
- Authors: Faisal Ladhak, Esin Durmus, Claire Cardie, Kathleen McKeown
- Abstract要約: ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
- 参考スコア(独自算出の注目度): 41.578594261746055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce WikiLingua, a large-scale, multilingual dataset for the
evaluation of crosslingual abstractive summarization systems. We extract
article and summary pairs in 18 languages from WikiHow, a high quality,
collaborative resource of how-to guides on a diverse set of topics written by
human authors. We create gold-standard article-summary alignments across
languages by aligning the images that are used to describe each how-to step in
an article. As a set of baselines for further studies, we evaluate the
performance of existing cross-lingual abstractive summarization methods on our
dataset. We further propose a method for direct crosslingual summarization
(i.e., without requiring translation at inference time) by leveraging synthetic
data and Neural Machine Translation as a pre-training step. Our method
significantly outperforms the baseline approaches, while being more cost
efficient during inference.
- Abstract(参考訳): ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
論文と要約のペアを18ヶ国語から抽出し,人間の著者による多種多様なトピックに関するハウツーガイドの質の高いコラボレーティブなリソースであるwikihowから抽出した。
記事のハウツーステップを記述するために使用される画像をアライメントすることによって、言語をまたいだゴールド標準の記事要約アライメントを作成します。
さらなる研究のベースラインとして、既存の言語間抽象的な要約手法の性能をデータセット上で評価する。
さらに,合成データとニューラルマシン翻訳を事前学習ステップとして活用し,言語間直接要約(すなわち,推論時に翻訳を必要とせずに)を行う手法を提案する。
提案手法は, 推論時のコスト効率が向上する一方で, ベースラインアプローチを大幅に上回っている。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Automatic Data Retrieval for Cross Lingual Summarization [4.759360739268894]
言語間の要約では、ある言語で書かれたテキストを別の言語に要約する。
本研究は,英語からヒンディー語への言語間要約を実現することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T09:13:24Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - $\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge [72.64847925450368]
言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成することで構成される。
この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$mu$PLANを提示する。
論文 参考訳(メタデータ) (2023-05-23T16:25:21Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。