論文の概要: X-SCITLDR: Cross-Lingual Extreme Summarization of Scholarly Documents
- arxiv url: http://arxiv.org/abs/2205.15051v1
- Date: Mon, 30 May 2022 12:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 01:25:33.520825
- Title: X-SCITLDR: Cross-Lingual Extreme Summarization of Scholarly Documents
- Title(参考訳): x-scitldr : 学術文献の言語横断的極端な要約
- Authors: Sotaro Takeshita, Tommaso Green, Niklas Friedrich, Kai Eckert and
Simone Paolo Ponzetto
- Abstract要約: 学術領域における4つの異なる言語に対する抽象的言語間要約データセットを提案する。
我々は、英語論文を処理し、ドイツ語、イタリア語、中国語、日本語で要約を生成するモデルを訓練し、評価する。
- 参考スコア(独自算出の注目度): 12.493662336994106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The number of scientific publications nowadays is rapidly increasing, causing
information overload for researchers and making it hard for scholars to keep up
to date with current trends and lines of work. Consequently, recent work on
applying text mining technologies for scholarly publications has investigated
the application of automatic text summarization technologies, including extreme
summarization, for this domain. However, previous work has concentrated only on
monolingual settings, primarily in English. In this paper, we fill this
research gap and present an abstractive cross-lingual summarization dataset for
four different languages in the scholarly domain, which enables us to train and
evaluate models that process English papers and generate summaries in German,
Italian, Chinese and Japanese. We present our new X-SCITLDR dataset for
multilingual summarization and thoroughly benchmark different models based on a
state-of-the-art multilingual pre-trained model, including a two-stage
`summarize and translate' approach and a direct cross-lingual model. We
additionally explore the benefits of intermediate-stage training using English
monolingual summarization and machine translation as intermediate tasks and
analyze performance in zero- and few-shot scenarios.
- Abstract(参考訳): 現代の科学出版物の数は急速に増加しており、研究者の情報が過負荷になり、研究者が現在の傾向や仕事の行に追随することが難しくなっている。
その結果, 学術出版にテキストマイニング技術を適用した最近の研究は, 極端な要約を含む自動要約技術の適用について検討している。
しかし、以前の研究は、主に英語で、単言語的な設定にのみ集中していた。
本稿では、この研究のギャップを埋め、学術分野における4つの異なる言語を対象とした抽象的言語横断要約データセットを提示し、英語論文を処理し、ドイツ語、イタリア語、中国語、日本語の要約を生成するモデルを訓練し、評価する。
我々は,多言語要約のための新しいX-SCITLDRデータセットと,2段階の 'summarize and translate' アプローチと直交言語モデルを含む,最先端の多言語事前学習モデルに基づいて,様々なモデルを徹底的にベンチマークする。
さらに,英語の単言語要約と機械翻訳を中間タスクとして,中間段階学習の利点を探求し,ゼロ・マイ・ショットのシナリオでの性能分析を行った。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Cross-lingual Editing in Multilingual Language Models [1.3062731746155414]
本稿では,言語間モデル編集(textbfXME)パラダイムを紹介し,事実を一つの言語で編集し,その後の更新伝搬を他の言語で観察する。
その結果,言語が2つの異なるスクリプトファミリーに属している場合を中心に,XME設定下での最先端のMETの性能制限が顕著に示された。
論文 参考訳(メタデータ) (2024-01-19T06:54:39Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。