論文の概要: Low Resource Summarization using Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2310.02790v1
- Date: Wed, 4 Oct 2023 13:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 14:59:35.926476
- Title: Low Resource Summarization using Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルを用いた低資源要約
- Authors: Mubashir Munaf, Hammad Afzal, Naima Iltaf, Khawir Mahmood
- Abstract要約: そこで本稿では,低リソースの要約に自己注意型トランスフォーマーベースアーキテクチャモデル(mBERT,mT5)を適用する手法を提案する。
適応的な要約モデル textiturT5 は、高リソース言語英語の最先端モデルに匹敵する評価スコア(最大46.35 ROUGE-1,77 BERTScore)で、低リソース言語の文脈情報を効果的にキャプチャすることができる。
- 参考スコア(独自算出の注目度): 1.26404863283601
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the advent of Deep Learning based Artificial Neural Networks models,
Natural Language Processing (NLP) has witnessed significant improvements in
textual data processing in terms of its efficiency and accuracy. However, the
research is mostly restricted to high-resource languages such as English and
low-resource languages still suffer from a lack of available resources in terms
of training datasets as well as models with even baseline evaluation results.
Considering the limited availability of resources for low-resource languages,
we propose a methodology for adapting self-attentive transformer-based
architecture models (mBERT, mT5) for low-resource summarization, supplemented
by the construction of a new baseline dataset (76.5k article, summary pairs) in
a low-resource language Urdu. Choosing news (a publicly available source) as
the application domain has the potential to make the proposed methodology
useful for reproducing in other languages with limited resources. Our adapted
summarization model \textit{urT5} with up to 44.78\% reduction in size as
compared to \textit{mT5} can capture contextual information of low resource
language effectively with evaluation score (up to 46.35 ROUGE-1, 77 BERTScore)
at par with state-of-the-art models in high resource language English
\textit{(PEGASUS: 47.21, BART: 45.14 on XSUM Dataset)}. The proposed method
provided a baseline approach towards extractive as well as abstractive
summarization with competitive evaluation results in a limited resource setup.
- Abstract(参考訳): ディープラーニングベースのニューラルネットワークモデルの出現により、自然言語処理(NLP)はその効率と正確性の観点から、テキストデータ処理の大幅な改善が見られた。
しかし、研究は主に英語や低リソース言語のような高リソース言語に限定されており、データセットのトレーニングや、ベースライン評価結果のモデルに関してはまだ利用可能なリソースが不足している。
低リソース言語のためのリソースが限られていることを考慮し、低リソース言語 urdu における新しいベースラインデータセット (76.5k 記事、要約ペア) の構築を補足して、低リソース要約のための自己対応トランスフォーマベースのアーキテクチャモデル (mbert, mt5) を適用する手法を提案する。
アプリケーションドメインとしてニュース(公開ソース)を選択すると、提案された方法論がリソースが限られている他の言語で再生するのに有用になる可能性がある。
我々の適応した要約モデルである \textit{urt5} は, \textit{mt5} と比較して最大44.78\%小さくなり,評価スコア (46.35 rouge-1, 77 bertscore まで) で低リソース言語の文脈情報を効果的に取得できる。
提案手法は, 限られた資源設定において, 競合評価結果との抽象的な要約と抽出に対するベースラインアプローチを提供する。
関連論文リスト
- Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Better Low-Resource Entity Recognition Through Translation and
Annotation Fusion [12.864201646293248]
我々は、低リソースの言語テキストを高リソースの言語に翻訳してアノテーションを提供する、Translation-and-fusionフレームワークを紹介した。
このフレームワークをベースとしたTransFusionは、低リソース言語で堅牢な予測を行うために、高リソース言語からの予測を融合するよう訓練されたモデルである。
論文 参考訳(メタデータ) (2023-05-23T01:23:22Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - How Low is Too Low? A Computational Perspective on Extremely
Low-Resource Languages [1.7625363344837164]
シュメール語のための最初の言語間情報抽出パイプラインを紹介する。
また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。
パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
論文 参考訳(メタデータ) (2021-05-30T12:09:59Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Tackling the Low-resource Challenge for Canonical Segmentation [23.17111619633273]
カノニカルな形態素区分は、単語を標準化された形態素に分割するものである。
形態素生成の密接に関連する領域から借用した2つの新しいモデルについて検討する。
低リソース環境では、新しいアプローチがすべての言語で11.4%の精度で既存のものより優れていることが分かりました。
論文 参考訳(メタデータ) (2020-10-06T15:15:05Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。