論文の概要: Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization
- arxiv url: http://arxiv.org/abs/2204.13512v2
- Date: Fri, 29 Apr 2022 08:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 11:26:39.276301
- Title: Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization
- Title(参考訳): ゼロショット多言語抽出要約のためのニューラルラベル探索
- Authors: Ruipeng Jia, Xingxing Zhang, Yanan Cao, Shi Wang, Zheng Lin, Furu Wei
- Abstract要約: ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
- 参考スコア(独自算出の注目度): 80.94424037751243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In zero-shot multilingual extractive text summarization, a model is typically
trained on English summarization dataset and then applied on summarization
datasets of other languages. Given English gold summaries and documents,
sentence-level labels for extractive summarization are usually generated using
heuristics. However, these monolingual labels created on English datasets may
not be optimal on datasets of other languages, for that there is the syntactic
or semantic discrepancy between different languages. In this way, it is
possible to translate the English dataset to other languages and obtain
different sets of labels again using heuristics. To fully leverage the
information of these different sets of labels, we propose NLSSum (Neural Label
Search for Summarization), which jointly learns hierarchical weights for these
different sets of labels together with our summarization model. We conduct
multilingual zero-shot summarization experiments on MLSUM and WikiLingua
datasets, and we achieve state-of-the-art results using both human and
automatic evaluations across these two datasets.
- Abstract(参考訳): ゼロショットの多言語抽出テキスト要約では、モデルは典型的には英語の要約データセットで訓練され、他の言語の要約データセットに適用される。
英語の金の要約と文書が与えられると、抽出要約のための文レベルのラベルは通常ヒューリスティックスを使用して生成される。
しかし、これらの単言語ラベルは、異なる言語間の統語的あるいは意味的な相違があるため、他の言語のデータセットでは最適ではないかもしれない。
このようにして、英語データセットを他の言語に翻訳し、ヒューリスティックスを用いて異なるラベルセットを再び取得することができる。
これら異なるラベルセットの情報を完全に活用するため,我々は,これらのラベルセットの階層的重みと要約モデルを同時に学習するnlssum(neural label search for summarization)を提案する。
mlsumデータセットとwikilinguaデータセットの多言語ゼロショット要約実験を行い,これら2つのデータセットの人的評価と自動評価の両方を用いて,最先端の結果を得る。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Guided Distant Supervision for Multilingual Relation Extraction Data: Adapting to a New Language [7.59001382786429]
本稿では,ドイツにおける大規模生物関係抽出データセットの作成のために,遠距離監視法を適用した。
我々のデータセットは,9種類の関係型に対して80,000以上のインスタンスで構成されており,ドイツで最大規模の関係抽出データセットである。
私たちは、自動生成されたデータセット上に、最先端の機械学習モデルをトレーニングし、それらもリリースします。
論文 参考訳(メタデータ) (2024-03-25T19:40:26Z) - Visualizing Linguistic Diversity of Text Datasets Synthesized by Large
Language Models [9.808214545408541]
LinguisticLensは,データセットの構文的多様性を理解し解析するための,新たなインタラクティブな可視化ツールである。
テキストデータセットの階層的な可視化をサポートしており、ユーザーは概要を素早くスキャンし、個々の例を検査することができる。
論文 参考訳(メタデータ) (2023-05-19T00:53:45Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。