論文の概要: Cross-Lingual Abstractive Summarization with Limited Parallel Resources
- arxiv url: http://arxiv.org/abs/2105.13648v2
- Date: Mon, 31 May 2021 03:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 11:42:17.176189
- Title: Cross-Lingual Abstractive Summarization with Limited Parallel Resources
- Title(参考訳): 限られた並列資源を用いた言語間抽象要約
- Authors: Yu Bai, Yang Gao, Heyan Huang
- Abstract要約: 低リソース環境下でのクロスリンガル抽象要約(MCLAS)のための新しいマルチタスクフレームワークを提案する。
1つの統一デコーダを用いてモノリンガルとクロスリンガルの要約の逐次連結を生成することで、MCLASはモノリンガルの要約タスクをクロスリンガルの要約タスクの前提条件とする。
我々のモデルは、低リソースとフルデータセットの両方のシナリオにおいて、3つのベースラインモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 22.680714603332355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parallel cross-lingual summarization data is scarce, requiring models to
better use the limited available cross-lingual resources. Existing methods to
do so often adopt sequence-to-sequence networks with multi-task frameworks.
Such approaches apply multiple decoders, each of which is utilized for a
specific task. However, these independent decoders share no parameters, hence
fail to capture the relationships between the discrete phrases of summaries in
different languages, breaking the connections in order to transfer the
knowledge of the high-resource languages to low-resource languages. To bridge
these connections, we propose a novel Multi-Task framework for Cross-Lingual
Abstractive Summarization (MCLAS) in a low-resource setting. Employing one
unified decoder to generate the sequential concatenation of monolingual and
cross-lingual summaries, MCLAS makes the monolingual summarization task a
prerequisite of the cross-lingual summarization (CLS) task. In this way, the
shared decoder learns interactions involving alignments and summary patterns
across languages, which encourages attaining knowledge transfer. Experiments on
two CLS datasets demonstrate that our model significantly outperforms three
baseline models in both low-resource and full-dataset scenarios. Moreover,
in-depth analysis on the generated summaries and attention heads verifies that
interactions are learned well using MCLAS, which benefits the CLS task under
limited parallel resources.
- Abstract(参考訳): 並列言語間要約データは少ないため、モデルが利用可能な言語間リソースをより活用する必要がある。
既存の手法では、マルチタスクフレームワークでシーケンシャル・ツー・シーケンス・ネットワークを採用することが多い。
このようなアプローチは複数のデコーダを適用でき、それぞれが特定のタスクに使用される。
しかし、これらの独立したデコーダはパラメータを共有しないので、異なる言語における要約の離散的なフレーズ間の関係を捉えず、高リソース言語の知識を低リソース言語に転送するために接続を断ち切る。
これらの接続をブリッジするために,低リソース環境下でのクロスLingual Abstractive Summarization (MCLAS) のための新しいマルチタスクフレームワークを提案する。
統一デコーダを1つ使用して、単言語およびクロス言語サマリーの逐次結合を生成することで、mclasは単言語サマー化タスクをクロス言語サマー化(cls)タスクの前提条件とする。
このようにして、共有デコーダは言語間のアライメントや要約パターンを含む相互作用を学び、知識伝達の達成を促進する。
CLSデータセットの2つの実験により、我々のモデルは低リソースとフルデータセットの両方のシナリオにおいて、3つのベースラインモデルよりも大幅に優れていることが示された。
さらに,生成したサマリーとアテンションヘッドの詳細な解析により,MCLASを用いて相互作用が十分に学習されていることを確認する。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。
提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文 参考訳(メタデータ) (2024-10-01T08:53:38Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。
CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。
条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:46:11Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。