論文の概要: L3Cube-IndicNews: News-based Short Text and Long Document Classification
Datasets in Indic Languages
- arxiv url: http://arxiv.org/abs/2401.02254v1
- Date: Thu, 4 Jan 2024 13:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:08:50.610802
- Title: L3Cube-IndicNews: News-based Short Text and Long Document Classification
Datasets in Indic Languages
- Title(参考訳): L3Cube-IndicNews: ニュースベースの短文と長い文書分類データセット
- Authors: Aishwarya Mirashi, Srushti Sonavane, Purva Lingayat, Tejas Padhiyar,
Raviraj Joshi
- Abstract要約: L3Cube-IndicNewsは、インドの地域言語のための高品質なデータセットのキュレーションを目的とした多言語テキスト分類コーパスである。
私たちはヒンディー語、ベンガル語、マラティ語、テルグ語、タミル語、グジャラート語、カンナダ語、オディア語、マラヤラム語、パンジャービ語を含む10の著名なインド語を中心にしています。
これらのニュースデータセットはそれぞれ10以上のニュース記事のクラスで構成されている。
- 参考スコア(独自算出の注目度): 0.4499833362998489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce L3Cube-IndicNews, a multilingual text
classification corpus aimed at curating a high-quality dataset for Indian
regional languages, with a specific focus on news headlines and articles. We
have centered our work on 10 prominent Indic languages, including Hindi,
Bengali, Marathi, Telugu, Tamil, Gujarati, Kannada, Odia, Malayalam, and
Punjabi. Each of these news datasets comprises 10 or more classes of news
articles. L3Cube-IndicNews offers 3 distinct datasets tailored to handle
different document lengths that are classified as: Short Headlines
Classification (SHC) dataset containing the news headline and news category,
Long Document Classification (LDC) dataset containing the whole news article
and the news category, and Long Paragraph Classification (LPC) containing
sub-articles of the news and the news category. We maintain consistent labeling
across all 3 datasets for in-depth length-based analysis. We evaluate each of
these Indic language datasets using 4 different models including monolingual
BERT, multilingual Indic Sentence BERT (IndicSBERT), and IndicBERT. This
research contributes significantly to expanding the pool of available text
classification datasets and also makes it possible to develop topic
classification models for Indian regional languages. This also serves as an
excellent resource for cross-lingual analysis owing to the high overlap of
labels among languages. The datasets and models are shared publicly at
https://github.com/l3cube-pune/indic-nlp
- Abstract(参考訳): 本研究では,インドの地域言語を対象とした高品質なデータセットのキュレーションを目的とした多言語テキスト分類コーパスL3Cube-IndicNewsを紹介する。
私たちはヒンディー語、ベンガル語、マラティ語、テルグ語、タミル語、グジャラート語、カンナダ語、オディア語、マラヤラム語、パンジャービ語を含む10の著名なインド語を中心にしています。
これらのニュースデータセットは、10以上のニュース記事からなる。
L3Cube-IndicNewsでは、ニュース見出しとニュースカテゴリを含むショートヘッドライン分類(SHC)データセット、ニュース記事全体とニュースカテゴリを含むロングドキュメント分類(LDC)データセット、ニュースとニュースカテゴリのサブアーティクルを含むロングパラグラフ分類(LPC)という3つの異なる文書長を扱うように調整された3つのデータセットを提供している。
詳細な長さに基づく分析のために、3つのデータセットにまたがって一貫したラベリングを維持します。
単言語BERT,多言語Indic Sentence BERT(IndicSBERT),IndicBERT(IndicSBERT)の4つのモデルを用いてこれらのIndic言語データセットを評価する。
本研究は、利用可能なテキスト分類データセットのプールの拡大に大きく貢献し、インドの地域言語におけるトピック分類モデルの開発を可能にする。
これはまた、言語間のラベルが重なり合っているため、言語横断分析に優れたリソースとなる。
データセットとモデルはhttps://github.com/l3cube-pune/indic-nlpで公開されている。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - L3Cube-MahaNews: News-based Short Text and Long Document Classification Datasets in Marathi [0.4194295877935868]
L3Cube-MahaNewsは,ニュースの見出しや記事に焦点をあてたマラタイ語テキスト分類コーパスである。
このコーパスは最大規模のマラーティコーパスであり、1.05L以上の記録を12のカテゴリに分類している。
異なる文書の長さに対応するため、MahaNewsは短文、長文、中段落用に特別に設計された3つの教師付きデータセットで構成されている。
論文 参考訳(メタデータ) (2024-04-28T15:20:45Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。
私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文 参考訳(メタデータ) (2023-05-10T03:07:17Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic
Languages [23.157951796614466]
本稿では,11言語を対象とした自然言語生成をベンチマークするデータセットの集合であるIndicNLGスイートを提案する。
本稿では,ウィキペディア情報ボックス(WikiBio)を用いたバイオグラフィー生成,ニュース見出し生成,文要約,質問生成,パラフレーズ生成の5つのタスクに着目した。
論文 参考訳(メタデータ) (2022-03-10T15:53:58Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - A Data Bootstrapping Recipe for Low Resource Multilingual Relation
Classification [38.83366564843953]
IndoREは21Kのエンティティと3つのインド語と英語でタグ付けされた金の文を持つデータセットである。
まず,多言語BERT (mBERT) ベースのシステムから始める。
我々は、高価な金のインスタンスと翻訳された'銀のインスタンスと整合した'銀のインスタンスとの精度のトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:40:46Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。