論文の概要: Cross-Lingual Abstractive Summarization with Limited Parallel Resources
- arxiv url: http://arxiv.org/abs/2105.13648v2
- Date: Mon, 31 May 2021 03:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 11:42:17.176189
- Title: Cross-Lingual Abstractive Summarization with Limited Parallel Resources
- Title(参考訳): 限られた並列資源を用いた言語間抽象要約
- Authors: Yu Bai, Yang Gao, Heyan Huang
- Abstract要約: 低リソース環境下でのクロスリンガル抽象要約(MCLAS)のための新しいマルチタスクフレームワークを提案する。
1つの統一デコーダを用いてモノリンガルとクロスリンガルの要約の逐次連結を生成することで、MCLASはモノリンガルの要約タスクをクロスリンガルの要約タスクの前提条件とする。
我々のモデルは、低リソースとフルデータセットの両方のシナリオにおいて、3つのベースラインモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 22.680714603332355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parallel cross-lingual summarization data is scarce, requiring models to
better use the limited available cross-lingual resources. Existing methods to
do so often adopt sequence-to-sequence networks with multi-task frameworks.
Such approaches apply multiple decoders, each of which is utilized for a
specific task. However, these independent decoders share no parameters, hence
fail to capture the relationships between the discrete phrases of summaries in
different languages, breaking the connections in order to transfer the
knowledge of the high-resource languages to low-resource languages. To bridge
these connections, we propose a novel Multi-Task framework for Cross-Lingual
Abstractive Summarization (MCLAS) in a low-resource setting. Employing one
unified decoder to generate the sequential concatenation of monolingual and
cross-lingual summaries, MCLAS makes the monolingual summarization task a
prerequisite of the cross-lingual summarization (CLS) task. In this way, the
shared decoder learns interactions involving alignments and summary patterns
across languages, which encourages attaining knowledge transfer. Experiments on
two CLS datasets demonstrate that our model significantly outperforms three
baseline models in both low-resource and full-dataset scenarios. Moreover,
in-depth analysis on the generated summaries and attention heads verifies that
interactions are learned well using MCLAS, which benefits the CLS task under
limited parallel resources.
- Abstract(参考訳): 並列言語間要約データは少ないため、モデルが利用可能な言語間リソースをより活用する必要がある。
既存の手法では、マルチタスクフレームワークでシーケンシャル・ツー・シーケンス・ネットワークを採用することが多い。
このようなアプローチは複数のデコーダを適用でき、それぞれが特定のタスクに使用される。
しかし、これらの独立したデコーダはパラメータを共有しないので、異なる言語における要約の離散的なフレーズ間の関係を捉えず、高リソース言語の知識を低リソース言語に転送するために接続を断ち切る。
これらの接続をブリッジするために,低リソース環境下でのクロスLingual Abstractive Summarization (MCLAS) のための新しいマルチタスクフレームワークを提案する。
統一デコーダを1つ使用して、単言語およびクロス言語サマリーの逐次結合を生成することで、mclasは単言語サマー化タスクをクロス言語サマー化(cls)タスクの前提条件とする。
このようにして、共有デコーダは言語間のアライメントや要約パターンを含む相互作用を学び、知識伝達の達成を促進する。
CLSデータセットの2つの実験により、我々のモデルは低リソースとフルデータセットの両方のシナリオにおいて、3つのベースラインモデルよりも大幅に優れていることが示された。
さらに,生成したサマリーとアテンションヘッドの詳細な解析により,MCLASを用いて相互作用が十分に学習されていることを確認する。
関連論文リスト
- MT4CrossOIE: Multi-stage Tuning for Cross-lingual Open Information
Extraction [38.88339164947934]
言語横断的オープン情報抽出は,複数の言語にまたがる原文から構造化された情報を抽出することを目的としている。
以前の作業では、異なる言語を扱うために、共通言語間の事前訓練モデルを使用していたが、言語固有の表現の可能性を過小評価している。
MT4CrossIEという,言語間オープン情報抽出の効率化を目的とした,効果的な多段階チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-12T12:38:10Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。
CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。
条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:46:11Z) - Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-02-28T09:51:32Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。