論文の概要: Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization
- arxiv url: http://arxiv.org/abs/2204.13512v2
- Date: Fri, 29 Apr 2022 08:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 11:26:39.276301
- Title: Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization
- Title(参考訳): ゼロショット多言語抽出要約のためのニューラルラベル探索
- Authors: Ruipeng Jia, Xingxing Zhang, Yanan Cao, Shi Wang, Zheng Lin, Furu Wei
- Abstract要約: ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
- 参考スコア(独自算出の注目度): 80.94424037751243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In zero-shot multilingual extractive text summarization, a model is typically
trained on English summarization dataset and then applied on summarization
datasets of other languages. Given English gold summaries and documents,
sentence-level labels for extractive summarization are usually generated using
heuristics. However, these monolingual labels created on English datasets may
not be optimal on datasets of other languages, for that there is the syntactic
or semantic discrepancy between different languages. In this way, it is
possible to translate the English dataset to other languages and obtain
different sets of labels again using heuristics. To fully leverage the
information of these different sets of labels, we propose NLSSum (Neural Label
Search for Summarization), which jointly learns hierarchical weights for these
different sets of labels together with our summarization model. We conduct
multilingual zero-shot summarization experiments on MLSUM and WikiLingua
datasets, and we achieve state-of-the-art results using both human and
automatic evaluations across these two datasets.
- Abstract(参考訳): ゼロショットの多言語抽出テキスト要約では、モデルは典型的には英語の要約データセットで訓練され、他の言語の要約データセットに適用される。
英語の金の要約と文書が与えられると、抽出要約のための文レベルのラベルは通常ヒューリスティックスを使用して生成される。
しかし、これらの単言語ラベルは、異なる言語間の統語的あるいは意味的な相違があるため、他の言語のデータセットでは最適ではないかもしれない。
このようにして、英語データセットを他の言語に翻訳し、ヒューリスティックスを用いて異なるラベルセットを再び取得することができる。
これら異なるラベルセットの情報を完全に活用するため,我々は,これらのラベルセットの階層的重みと要約モデルを同時に学習するnlssum(neural label search for summarization)を提案する。
mlsumデータセットとwikilinguaデータセットの多言語ゼロショット要約実験を行い,これら2つのデータセットの人的評価と自動評価の両方を用いて,最先端の結果を得る。
関連論文リスト
- Visualizing Linguistic Diversity of Text Datasets Synthesized by Large
Language Models [9.808214545408541]
LinguisticLensは,データセットの構文的多様性を理解し解析するための,新たなインタラクティブな可視化ツールである。
テキストデータセットの階層的な可視化をサポートしており、ユーザーは概要を素早くスキャンし、個々の例を検査することができる。
論文 参考訳(メタデータ) (2023-05-19T00:53:45Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。