Fugu-MT 論文翻訳(概要): Cross-Lingual Abstractive Summarization with Limited Parallel Resources

論文の概要: Cross-Lingual Abstractive Summarization with Limited Parallel Resources

arxiv url: http://arxiv.org/abs/2105.13648v2
Date: Mon, 31 May 2021 03:26:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-01 11:42:17.176189
Title: Cross-Lingual Abstractive Summarization with Limited Parallel Resources
Title（参考訳）: 限られた並列資源を用いた言語間抽象要約
Authors: Yu Bai, Yang Gao, Heyan Huang
Abstract要約: 低リソース環境下でのクロスリンガル抽象要約(MCLAS)のための新しいマルチタスクフレームワークを提案する。 1つの統一デコーダを用いてモノリンガルとクロスリンガルの要約の逐次連結を生成することで、MCLASはモノリンガルの要約タスクをクロスリンガルの要約タスクの前提条件とする。我々のモデルは、低リソースとフルデータセットの両方のシナリオにおいて、3つのベースラインモデルよりも大幅に優れています。
参考スコア（独自算出の注目度）: 22.680714603332355
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Parallel cross-lingual summarization data is scarce, requiring models to better use the limited available cross-lingual resources. Existing methods to do so often adopt sequence-to-sequence networks with multi-task frameworks. Such approaches apply multiple decoders, each of which is utilized for a specific task. However, these independent decoders share no parameters, hence fail to capture the relationships between the discrete phrases of summaries in different languages, breaking the connections in order to transfer the knowledge of the high-resource languages to low-resource languages. To bridge these connections, we propose a novel Multi-Task framework for Cross-Lingual Abstractive Summarization (MCLAS) in a low-resource setting. Employing one unified decoder to generate the sequential concatenation of monolingual and cross-lingual summaries, MCLAS makes the monolingual summarization task a prerequisite of the cross-lingual summarization (CLS) task. In this way, the shared decoder learns interactions involving alignments and summary patterns across languages, which encourages attaining knowledge transfer. Experiments on two CLS datasets demonstrate that our model significantly outperforms three baseline models in both low-resource and full-dataset scenarios. Moreover, in-depth analysis on the generated summaries and attention heads verifies that interactions are learned well using MCLAS, which benefits the CLS task under limited parallel resources.
Abstract（参考訳）: 並列言語間要約データは少ないため、モデルが利用可能な言語間リソースをより活用する必要がある。既存の手法では、マルチタスクフレームワークでシーケンシャル・ツー・シーケンス・ネットワークを採用することが多い。このようなアプローチは複数のデコーダを適用でき、それぞれが特定のタスクに使用される。しかし、これらの独立したデコーダはパラメータを共有しないので、異なる言語における要約の離散的なフレーズ間の関係を捉えず、高リソース言語の知識を低リソース言語に転送するために接続を断ち切る。これらの接続をブリッジするために,低リソース環境下でのクロスLingual Abstractive Summarization (MCLAS) のための新しいマルチタスクフレームワークを提案する。統一デコーダを1つ使用して、単言語およびクロス言語サマリーの逐次結合を生成することで、mclasは単言語サマー化タスクをクロス言語サマー化(cls)タスクの前提条件とする。このようにして、共有デコーダは言語間のアライメントや要約パターンを含む相互作用を学び、知識伝達の達成を促進する。 CLSデータセットの2つの実験により、我々のモデルは低リソースとフルデータセットの両方のシナリオにおいて、3つのベースラインモデルよりも大幅に優れていることが示された。さらに,生成したサマリーとアテンションヘッドの詳細な解析により,MCLASを用いて相互作用が十分に学習されていることを確認する。

関連論文リスト

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。 LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。 5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-01-01T15:43:07Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文参考訳（メタデータ） (2024-10-01T08:53:38Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。本手法は,様々なベンチマーク上での局所モデル性能を向上させる。また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文参考訳（メタデータ） (2024-03-15T14:36:38Z)
A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。 CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文参考訳（メタデータ） (2022-03-08T02:46:11Z)
Improving Low-resource Reading Comprehension via Cross-lingual Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文参考訳（メタデータ） (2021-07-11T09:35:16Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文参考訳（メタデータ） (2020-06-11T13:15:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。