論文の概要: Summarizing Indian Languages using Multilingual Transformers based
Models
- arxiv url: http://arxiv.org/abs/2303.16657v1
- Date: Wed, 29 Mar 2023 13:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 14:51:13.581047
- Title: Summarizing Indian Languages using Multilingual Transformers based
Models
- Title(参考訳): 多言語トランスフォーマーモデルを用いたインドの言語要約
- Authors: Dhaval Taunk and Vasudeva Varma
- Abstract要約: 本研究では、これらの多言語モデルが、原文およびターゲットテキストとしてインド語を持つデータセット上でどのように機能するかを検討する。
IndicBARTおよびmT5モデルを用いて実験を行い, ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4のスコアを評価指標として報告する。
- 参考スコア(独自算出の注目度): 13.062351454646912
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the advent of multilingual models like mBART, mT5, IndicBART etc.,
summarization in low resource Indian languages is getting a lot of attention
now a days. But still the number of datasets is low in number. In this work, we
(Team HakunaMatata) study how these multilingual models perform on the datasets
which have Indian languages as source and target text while performing
summarization. We experimented with IndicBART and mT5 models to perform the
experiments and report the ROUGE-1, ROUGE-2, ROUGE-3 and ROUGE-4 scores as a
performance metric.
- Abstract(参考訳): mBART、mT5、IndicBARTなどの多言語モデルの出現に伴い、低リソースのインドの言語における要約が、今や注目を集めている。
しかし、それでもデータセットの数は少ない。
本研究では,これらの多言語モデルが,インド語を原文とするデータセット上でどのように機能するかを,要約を行いながら検討する。
IndicBARTおよびmT5モデルを用いて実験を行い, ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4のスコアを評価指標として報告する。
関連論文リスト
- L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi [0.4194295877935868]
本稿では,マラタイにおける多種多様なニュース記事の大規模コレクションであるMahaSUMデータセットについて述べる。
データセットは、広範囲のオンラインニュースソースから記事を取り除き、抽象的な要約を手作業で検証することで作成されました。
我々は、MahaSUMデータセットを使用して、Indic言語用に調整されたBARTモデルの変種であるIndicBARTモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-10-11T18:37:37Z) - MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - Benchmarking and Building Zero-Shot Hindi Retrieval Model with Hindi-BEIR and NLLB-E5 [8.21020989074456]
Hindi-BEIRベンチマークを導入し,7つのタスクにまたがる15のデータセットについて検討した。
我々は,Hindi-BEIRベンチマークを用いた最先端多言語検索モデルの評価を行い,課題とドメイン固有の課題を特定する。
我々は,ヒンディー語学習データを必要とせずにヒンディー語をサポートするため,ゼロショットアプローチを利用する多言語検索モデルであるNLLB-E5を紹介する。
論文 参考訳(メタデータ) (2024-09-09T07:57:43Z) - Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Implementing Deep Learning-Based Approaches for Article Summarization in
Indian Languages [1.5749416770494706]
本稿では、ISSUM 2022 Indic言語要約データセットに使用される様々なディープラーニングアプローチの概要について述べる。
ISUM 2022は、それぞれインド英語、ヒンディー語、グジャラーティ語で書かれたニュース記事と、その基礎となる要約からなる。
論文 参考訳(メタデータ) (2022-12-12T04:50:43Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。
データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。
両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文 参考訳(メタデータ) (2021-07-30T20:01:03Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。