論文の概要: AlbNews: A Corpus of Headlines for Topic Modeling in Albanian
- arxiv url: http://arxiv.org/abs/2402.04028v1
- Date: Tue, 6 Feb 2024 14:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:27:50.866420
- Title: AlbNews: A Corpus of Headlines for Topic Modeling in Albanian
- Title(参考訳): AlbNews: アルバニア語におけるトピックモデリングのための見出しのコーパス
- Authors: Erion \c{C}ano, Dario Lamaj
- Abstract要約: AlbNews(アルブニューズ)は、アルバニア語で600のニュースヘッドラインと2600の未ラベルのニュースのコレクションである。
このデータはトピックモデリング研究の実施に自由に利用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scarcity of available text corpora for low-resource languages like
Albanian is a serious hurdle for research in natural language processing tasks.
This paper introduces AlbNews, a collection of 600 topically labeled news
headlines and 2600 unlabeled ones in Albanian. The data can be freely used for
conducting topic modeling research. We report the initial classification scores
of some traditional machine learning classifiers trained with the AlbNews
samples. These results show that basic models outrun the ensemble learning ones
and can serve as a baseline for future experiments.
- Abstract(参考訳): アルバニア語のような低リソース言語で利用できるテキストコーパスの不足は、自然言語処理タスクの研究にとって深刻なハードルである。
本稿では,アルバニア語で600件のニュース見出しと2600件の未掲載記事を集めたAlbNewsを紹介する。
このデータはトピックモデリング研究の実施に自由に利用できる。
albnewsサンプルでトレーニングされた従来の機械学習分類器の初期分類スコアを報告する。
これらの結果から,基本モデルはアンサンブル学習モデルより優れており,今後の実験のベースラインとして機能することが示唆された。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - AlbNER: A Corpus for Named Entity Recognition in Albanian [0.0]
本稿では、アルバニア語ウィキペディアの記事から収集した900文のコーパスであるAlbNERについて述べる。
BERTとRoBERTaによる予備的な結果から、AlbNERデータを用いて微調整およびテストした結果、モデルサイズがNERのパフォーマンスにわずかに影響を与えているのに対して、言語転送は大きな影響を与えていることがわかる。
論文 参考訳(メタデータ) (2023-09-15T20:03:19Z) - Benchmarking Multilabel Topic Classification in the Kyrgyz Language [6.15353988889181]
我々は,ニュースサイト24.KGの収集および注釈付きデータに基づいて,キルギスにおけるトピック分類のための新しい公開ベンチマークを提案する。
我々は、古典的な統計モデルとニューラルモデルの両方をトレーニングし、評価し、スコアを報告し、結果を議論し、将来の仕事の方向性を提案します。
論文 参考訳(メタデータ) (2023-08-30T11:02:26Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - AlbMoRe: A Corpus of Movie Reviews for Sentiment Analysis in Albanian [0.0]
AlbMoRe(アルブモレ)は、アルバニアの映画レビュー800のコーパス。
各テキストは肯定的あるいは否定的にラベル付けされ、感情分析研究に使用することができる。
論文 参考訳(メタデータ) (2023-06-14T14:21:55Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - DziriBERT: a Pre-trained Language Model for the Algerian Dialect [2.064612766965483]
アラビア語や多言語モデルの使用を不適切なものにするいくつかの特異性を持つアルジェ方言について検討する。
この問題を解決するために、100万以上のアルジェリア語ツイートを収集し、最初のアルジェリア語モデルであるDziriBERTを事前訓練しました。
論文 参考訳(メタデータ) (2021-09-25T11:51:35Z) - New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文 参考訳(メタデータ) (2021-06-29T10:42:53Z) - An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。
このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文 参考訳(メタデータ) (2021-03-10T16:36:39Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。