論文の概要: Implementing Deep Learning-Based Approaches for Article Summarization in
Indian Languages
- arxiv url: http://arxiv.org/abs/2212.05702v1
- Date: Mon, 12 Dec 2022 04:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:08:28.980802
- Title: Implementing Deep Learning-Based Approaches for Article Summarization in
Indian Languages
- Title(参考訳): インド語における記事要約のためのディープラーニング手法の実装
- Authors: Rahul Tangsali, Aabha Pingle, Aditya Vyawahare, Isha Joshi, Raviraj
Joshi
- Abstract要約: 本稿では、ISSUM 2022 Indic言語要約データセットに使用される様々なディープラーニングアプローチの概要について述べる。
ISUM 2022は、それぞれインド英語、ヒンディー語、グジャラーティ語で書かれたニュース記事と、その基礎となる要約からなる。
- 参考スコア(独自算出の注目度): 1.5749416770494706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research on text summarization for low-resource Indian languages has been
limited due to the availability of relevant datasets. This paper presents a
summary of various deep-learning approaches used for the ILSUM 2022 Indic
language summarization datasets. The ISUM 2022 dataset consists of news
articles written in Indian English, Hindi, and Gujarati respectively, and their
ground-truth summarizations. In our work, we explore different pre-trained
seq2seq models and fine-tune those with the ILSUM 2022 datasets. In our case,
the fine-tuned SoTA PEGASUS model worked the best for English, the fine-tuned
IndicBART model with augmented data for Hindi, and again fine-tuned PEGASUS
model along with a translation mapping-based approach for Gujarati. Our scores
on the obtained inferences were evaluated using ROUGE-1, ROUGE-2, and ROUGE-4
as the evaluation metrics.
- Abstract(参考訳): 低リソースのインドの言語に対するテキスト要約の研究は、関連するデータセットが利用可能であることから制限されている。
本稿では、ilsum 2022のindic language summarizationデータセットで使用されるさまざまなディープラーニングアプローチの概要を示す。
ISUM 2022データセットは、それぞれインド英語、ヒンディー語、グジャラティ語で書かれたニュース記事と、それらの基礎的な要約で構成されている。
我々の研究では、様々な事前訓練されたSeq2seqモデルを探索し、ILSUM 2022データセットでそれらを微調整する。
我々の場合、細調整された SoTA PEGASUS モデルは英語、細調整された IndicBART モデル、ヒンディー語のための拡張データ、そして再び細調整された PEGASUS モデル、そしてGujarati のための翻訳マッピングに基づくアプローチで機能した。
評価指標としてROUGE-1, ROUGE-2, ROUGE-4を用いた。
関連論文リスト
- L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi [0.4194295877935868]
本稿では,マラタイにおける多種多様なニュース記事の大規模コレクションであるMahaSUMデータセットについて述べる。
データセットは、広範囲のオンラインニュースソースから記事を取り除き、抽象的な要約を手作業で検証することで作成されました。
我々は、MahaSUMデータセットを使用して、Indic言語用に調整されたBARTモデルの変種であるIndicBARTモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-10-11T18:37:37Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - Summarizing Indian Languages using Multilingual Transformers based
Models [13.062351454646912]
本研究では、これらの多言語モデルが、原文およびターゲットテキストとしてインド語を持つデータセット上でどのように機能するかを検討する。
IndicBARTおよびmT5モデルを用いて実験を行い, ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4のスコアを評価指標として報告する。
論文 参考訳(メタデータ) (2023-03-29T13:05:17Z) - Indian Language Summarization using Pretrained Sequence-to-Sequence
Models [11.695648989161878]
ILSUMタスクはヒンディー語とグジャラート語と英語の2つの主要なインドの言語のテキスト要約に焦点を当てている。
本稿では,本論文におけるモデルの概要とアプローチについて概説する。
論文 参考訳(メタデータ) (2023-03-25T13:05:54Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - GAE-ISumm: Unsupervised Graph-Based Summarization of Indian Languages [5.197307534263253]
文書要約は、テキスト文書の正確で一貫性のある要約を作成することを目的としている。
多くのディープラーニングの要約モデルは、主に英語向けに開発されており、大きなトレーニングコーパスを必要とすることが多い。
本稿では,テキスト文書から要約を抽出する教師なしのIndic summarizationモデルであるGAE-ISummを提案する。
論文 参考訳(メタデータ) (2022-12-25T17:20:03Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。