論文の概要: WikiMulti: a Corpus for Cross-Lingual Summarization
- arxiv url: http://arxiv.org/abs/2204.11104v1
- Date: Sat, 23 Apr 2022 16:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 13:39:23.541185
- Title: WikiMulti: a Corpus for Cross-Lingual Summarization
- Title(参考訳): wikimulti:クロスリンガル要約のためのコーパス
- Authors: Pavel Tikhonov, Valentin Malykh
- Abstract要約: 言語間の要約は、異なる言語におけるソース文書の1つの言語で要約を生成するタスクである。
ウィキマルティ (WikiMulti) は、ウィキペディアの記事に基づく15言語による言語間要約のための新しいデータセットである。
- 参考スコア(独自算出の注目度): 5.566656105144887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual summarization (CLS) is the task to produce a summary in one
particular language for a source document in a different language. We introduce
WikiMulti - a new dataset for cross-lingual summarization based on Wikipedia
articles in 15 languages. As a set of baselines for further studies, we
evaluate the performance of existing cross-lingual abstractive summarization
methods on our dataset. We make our dataset publicly available here:
https://github.com/tikhonovpavel/wikimulti
- Abstract(参考訳): 言語間要約(CLS)は、異なる言語のソース文書に対して、ある特定の言語で要約を生成するタスクである。
我々は,wikipediaの記事に基づく言語横断要約のための新しいデータセットwikimultiを15言語で紹介する。
さらなる研究のベースラインとして、既存の言語間抽象的な要約手法の性能をデータセット上で評価する。
データセットをここで公開しています。 https://github.com/tikhonovpavel/wikimulti
関連論文リスト
- A Mixed-Language Multi-Document News Summarization Dataset and a Graphs-Based Extract-Generate Model [15.596156608713347]
現実のシナリオでは、国際イベントに関するニュースは、しばしば異なる言語で複数のドキュメントを含む。
混合言語多文書ニュース要約データセット(MLMD-news)を構築する。
このデータセットには、4つの異なる言語、10,992のソースドキュメントクラスタとターゲット要約ペアが含まれている。
論文 参考訳(メタデータ) (2024-10-13T08:15:33Z) - Automatic Data Retrieval for Cross Lingual Summarization [4.759360739268894]
言語間の要約では、ある言語で書かれたテキストを別の言語に要約する。
本研究は,英語からヒンディー語への言語間要約を実現することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T09:13:24Z) - $\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge [72.64847925450368]
言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成することで構成される。
この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$mu$PLANを提示する。
論文 参考訳(メタデータ) (2023-05-23T16:25:21Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - The RELX Dataset and Matching the Multilingual Blanks for Cross-Lingual
Relation Classification [0.0]
関係分類の現在のアプローチは、主に英語に焦点を当てている。
本稿では,多言語BERTに基づくベースラインモデルと,新しい多言語事前学習設定の2つの言語間関係分類モデルを提案する。
評価のために、英語、フランス語、ドイツ語、スペイン語、トルコ語における言語間関係分類のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-10-19T11:08:16Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。