論文の概要: SimCSum: Joint Learning of Simplification and Cross-lingual
Summarization for Cross-lingual Science Journalism
- arxiv url: http://arxiv.org/abs/2304.01621v1
- Date: Tue, 4 Apr 2023 08:24:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 14:35:12.182783
- Title: SimCSum: Joint Learning of Simplification and Cross-lingual
Summarization for Cross-lingual Science Journalism
- Title(参考訳): SimCSum: 言語間科学ジャーナリズムのための単純化と言語間要約の連成学習
- Authors: Mehwish Fatima, Tim Kolber, Katja Markert and Michael Strube
- Abstract要約: 言語間科学ジャーナリズムは、専門家でない聴衆のために、ソース言語とは異なる科学記事の一般的な科学物語を生成する。
我々は,2つのハイレベルなNLPタスク,単純化と言語間要約を併用して,言語間要約生成を改善する。
SimCSumは、2つの非合成言語間科学データセットに対する最先端技術よりも統計的に有意な改善を示している。
- 参考スコア(独自算出の注目度): 8.187718963808484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual science journalism generates popular science stories of
scientific articles different from the source language for a non-expert
audience. Hence, a cross-lingual popular summary must contain the salient
content of the input document, and the content should be coherent,
comprehensible, and in a local language for the targeted audience. We improve
these aspects of cross-lingual summary generation by joint training of two
high-level NLP tasks, simplification and cross-lingual summarization. The
former task reduces linguistic complexity, and the latter focuses on
cross-lingual abstractive summarization. We propose a novel multi-task
architecture - SimCSum consisting of one shared encoder and two parallel
decoders jointly learning simplification and cross-lingual summarization. We
empirically investigate the performance of SimCSum by comparing it with several
strong baselines over several evaluation metrics and by human evaluation.
Overall, SimCSum demonstrates statistically significant improvements over the
state-of-the-art on two non-synthetic cross-lingual scientific datasets.
Furthermore, we conduct an in-depth investigation into the linguistic
properties of generated summaries and an error analysis.
- Abstract(参考訳): 言語間科学ジャーナリズムは、専門家でない聴衆のために、ソース言語とは異なる科学記事の一般的な科学物語を生成する。
したがって、クロスリンガルのポピュラーな要約は、入力ドキュメントの突出した内容を含む必要があり、その内容は、対象とするオーディエンスのために、一貫性があり、理解可能で、ローカル言語でなければならない。
我々は,2つの高レベルNLPタスク,単純化と言語間要約による言語間要約生成のこれらの側面を改善した。
前者のタスクは言語の複雑さを減少させ、後者は言語間抽象要約に焦点を当てている。
1つの共有エンコーダと2つの並列デコーダからなるSimCSumは、単純化と言語間要約を併用して学習する。
我々は,SimCSumの性能を,複数の評価指標と人的評価指標とで比較し,実証的に検討した。
全体として、SimCSumは2つの非合成言語間科学データセットに対する最先端技術に対する統計的に有意な改善を示している。
さらに,生成した要約文の言語特性と誤り解析について詳細に検討する。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - EMMA-X: An EM-like Multilingual Pre-training Algorithm for Cross-lingual
Representation Learning [74.60554112841307]
EMMAX: (X)Crosslingual Universalsを学習するためのEM-like Multilingual Pretrainingアルゴリズムを提案する。
EMMAXは、言語間表現学習タスクと、EMフレームワーク内の余分な意味関係予測タスクを統一する。
論文 参考訳(メタデータ) (2023-10-26T08:31:00Z) - $\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge [72.64847925450368]
言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成することで構成される。
この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$mu$PLANを提示する。
論文 参考訳(メタデータ) (2023-05-23T16:25:21Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - X-SCITLDR: Cross-Lingual Extreme Summarization of Scholarly Documents [12.493662336994106]
学術領域における4つの異なる言語に対する抽象的言語間要約データセットを提案する。
我々は、英語論文を処理し、ドイツ語、イタリア語、中国語、日本語で要約を生成するモデルを訓練し、評価する。
論文 参考訳(メタデータ) (2022-05-30T12:31:28Z) - Improving Neural Cross-Lingual Summarization via Employing Optimal
Transport Distance for Knowledge Distillation [8.718749742587857]
言語間の要約モデルは、2つの言語のトークン間での自己認識機構に依存している。
本稿では,言語間要約のための知識蒸留に基づく新しいフレームワークを提案する。
提案手法は,高解像度および低出力の条件下での最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2021-12-07T03:45:02Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - On Learning Universal Representations Across Languages [37.555675157198145]
文レベルの表現を学習するための既存のアプローチを拡張し、言語間理解と生成の有効性を示す。
具体的には,複数の言語に分散した並列文の普遍表現を学習するための階層型コントラスト学習(HiCTL)手法を提案する。
我々は、XTREMEと機械翻訳という2つの難解な言語間タスクについて評価を行う。
論文 参考訳(メタデータ) (2020-07-31T10:58:39Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。