論文の概要: Benchmarking Multilabel Topic Classification in the Kyrgyz Language
- arxiv url: http://arxiv.org/abs/2308.15952v1
- Date: Wed, 30 Aug 2023 11:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 13:31:52.076810
- Title: Benchmarking Multilabel Topic Classification in the Kyrgyz Language
- Title(参考訳): キルギス語におけるマルチラベル話題分類のベンチマーク
- Authors: Anton Alekseev, Sergey I. Nikolenko, Gulnara Kabaeva
- Abstract要約: 我々は,ニュースサイト24.KGの収集および注釈付きデータに基づいて,キルギスにおけるトピック分類のための新しい公開ベンチマークを提案する。
我々は、古典的な統計モデルとニューラルモデルの両方をトレーニングし、評価し、スコアを報告し、結果を議論し、将来の仕事の方向性を提案します。
- 参考スコア(独自算出の注目度): 6.15353988889181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kyrgyz is a very underrepresented language in terms of modern natural
language processing resources. In this work, we present a new public benchmark
for topic classification in Kyrgyz, introducing a dataset based on collected
and annotated data from the news site 24.KG and presenting several baseline
models for news classification in the multilabel setting. We train and evaluate
both classical statistical and neural models, reporting the scores, discussing
the results, and proposing directions for future work.
- Abstract(参考訳): キルギス語は現代の自然言語処理資源において、非常に表現に乏しい言語である。
本研究では、ニュースサイト24.kgから収集・注釈されたデータに基づくデータセットを導入し、マルチラベル設定におけるニュース分類のベースラインモデルをいくつか提示する。
我々は、古典的統計モデルと神経モデルの両方を訓練し、評価し、スコアを報告し、結果を議論し、今後の作業の方向性を提案する。
関連論文リスト
- A Dataset and Strong Baselines for Classification of Czech News Texts [0.0]
チェコ最大の分類データセットであるCZE-NEC(CZE-NEC)について述べる。
我々は、ニュースソース、ニュースカテゴリ、推論された著者の性別、週の日という4つの分類タスクを定義した。
本研究では,市販の大規模生成言語モデルにおいて,言語固有の事前学習エンコーダ解析が優れていることを示す。
論文 参考訳(メタデータ) (2023-07-20T07:47:08Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Text classification dataset and analysis for Uzbek language [0.0]
まず、ウズベク語テキスト分類のための新しいデータセットを10の異なるニュースや報道サイトから収集した。
また、従来のbag-of-wordsモデルからディープラーニングアーキテクチャまで、さまざまなモデルの包括的評価を行う。
実験により、リカレントニューラルネットワーク(RNN)と畳み込みニューラルネットワーク(CNN)に基づくモデルがルールベースモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-02-28T11:21:24Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Simplifying Multilingual News Clustering Through Projection From a
Shared Space [0.39560040546164016]
メディア監視のための多言語ニュース記事の整理とクラスタ化は,ニュース記事のリアルタイムな追跡に不可欠である。
このタスクのほとんどのアプローチは、高リソース言語(主に英語)に焦点を当てており、低リソース言語は無視されている。
言語固有の機能に依存することなく、よりシンプルな文書ストリームをクラスタリングできるオンラインシステムを提案する。
論文 参考訳(メタデータ) (2022-04-28T11:32:49Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - KINNEWS and KIRNEWS: Benchmarking Cross-Lingual Text Classification for
Kinyarwanda and Kirundi [18.01565807026177]
我々はKinyarwandaとKirndiという低リソースのアフリカの2つの言語でニュース記事の分類のための2つのニュースデータセットを紹介した。
統計情報、事前処理のガイドライン、単言語および言語間ベースラインモデルを提供する。
実験の結果, 比較的高出力のKinyarwandaへの埋め込みを訓練することで, キルンディへの言語間移動が成功することがわかった。
論文 参考訳(メタデータ) (2020-10-23T05:37:42Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z) - Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T13:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。