論文の概要: Abstractive Summarization of Low resourced Nepali language using Multilingual Transformers
- arxiv url: http://arxiv.org/abs/2409.19566v1
- Date: Sun, 29 Sep 2024 05:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 22:28:30.524673
- Title: Abstractive Summarization of Low resourced Nepali language using Multilingual Transformers
- Title(参考訳): 多言語変換器を用いた低資源ネパール語の抽象要約
- Authors: Prakash Dhakal, Daya Sagar Baral,
- Abstract要約: この研究は、まずWebスクレイピングを通じて要約データセットを作成することによって、ネパールのテキストの要約に関連する重要な課題に対処する。
次に、ROUGEスコアと人的評価を用いて、微調整モデルの性能を評価した。
LoRAモデルを用いた4ビット量子化mBARTは、より優れたネパールのニュースの見出しを生成するのに有効であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic text summarization in Nepali language is an unexplored area in natural language processing (NLP). Although considerable research has been dedicated to extractive summarization, the area of abstractive summarization, especially for low-resource languages such as Nepali, remains largely unexplored. This study explores the use of multilingual transformer models, specifically mBART and mT5, for generating headlines for Nepali news articles through abstractive summarization. The research addresses key challenges associated with summarizing texts in Nepali by first creating a summarization dataset through web scraping from various Nepali news portals. These multilingual models were then fine-tuned using different strategies. The performance of the fine-tuned models were then assessed using ROUGE scores and human evaluation to ensure the generated summaries were coherent and conveyed the original meaning. During the human evaluation, the participants were asked to select the best summary among those generated by the models, based on criteria such as relevance, fluency, conciseness, informativeness, factual accuracy, and coverage. During the evaluation with ROUGE scores, the 4-bit quantized mBART with LoRA model was found to be effective in generating better Nepali news headlines in comparison to other models and also it was selected 34.05% of the time during the human evaluation, outperforming all other fine-tuned models created for Nepali News headline generation.
- Abstract(参考訳): ネパール語におけるテキストの自動要約は、自然言語処理(NLP)における未探索領域である。
抽出的な要約を専門とする研究が盛んに行われているが、抽象的な要約の領域、特にネパール語のような低リソース言語については、ほとんど探索されていない。
本研究では,多言語トランスフォーマーモデル,特にmBARTとmT5を用いて,抽象要約によるネパールのニュース記事の見出しを生成する。
この研究は、ネパールの様々なニュースポータルからのWebスクレイピングを通じて、まず要約データセットを作成することで、ネパールのテキストの要約に関連する重要な課題に対処する。
これらの多言語モデルは異なる戦略を用いて微調整された。
次に、ROUGEスコアと人的評価を用いて微調整モデルの性能を評価し、生成した要約が一致していることを確認し、本来の意味を伝達した。
被験者は, 妥当性, 流布度, 簡潔さ, 情報性, 事実的正確性, カバレッジなどの基準に基づいて, モデルが生成したモデルの中から, 最高の要約を選択するよう依頼された。
ROUGEスコアを用いた評価では、LoRAモデルを用いた4ビット量子化mBARTは、他のモデルと比較してネパールのニュースの見出しを生成するのに有効であることが判明した。
関連論文リスト
- Development of Pre-Trained Transformer-based Models for the Nepali Language [0.0]
全世界で約3200万人が話しているネパール語は、この領域では著しく過小評価されている。
ネパール語コーパスの約2.4倍の27.5GBのテキストデータを収集した。
我々のモデルは、Nep-gLUEベンチマークで既存の最良のモデルよりも2ポイント優れ、95.60得点、テキスト生成タスクで既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-11-24T06:38:24Z) - L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi [0.4194295877935868]
本稿では,マラタイにおける多種多様なニュース記事の大規模コレクションであるMahaSUMデータセットについて述べる。
データセットは、広範囲のオンラインニュースソースから記事を取り除き、抽象的な要約を手作業で検証することで作成されました。
我々は、MahaSUMデータセットを使用して、Indic言語用に調整されたBARTモデルの変種であるIndicBARTモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-10-11T18:37:37Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - Cross-lingual Approach to Abstractive Summarization [0.0]
言語間モデル転送は低リソース言語でうまく適用できる。
深層ニューラルネットワークとシークエンス・トゥ・シークエンスアーキテクチャに基づく事前学習型英語要約モデルを用いた。
対象言語データに異なる比率のモデルを開発し,微調整を行った。
論文 参考訳(メタデータ) (2020-12-08T09:30:38Z) - Bengali Abstractive News Summarization(BANS): A Neural Attention
Approach [0.8793721044482612]
本稿では,エンコーダ・デコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。
提案システムでは,単語の長い列を人文や人文で生成する,局所的な注意に基づくモデルを構築している。
また,Bangla.bdnews24.com1から収集した19k以上の記事とそれに対応する人文要約のデータセットも作成した。
論文 参考訳(メタデータ) (2020-12-03T08:17:31Z) - Tackling the Low-resource Challenge for Canonical Segmentation [23.17111619633273]
カノニカルな形態素区分は、単語を標準化された形態素に分割するものである。
形態素生成の密接に関連する領域から借用した2つの新しいモデルについて検討する。
低リソース環境では、新しいアプローチがすべての言語で11.4%の精度で既存のものより優れていることが分かりました。
論文 参考訳(メタデータ) (2020-10-06T15:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。