論文の概要: A Dataset and Strong Baselines for Classification of Czech News Texts
- arxiv url: http://arxiv.org/abs/2307.10666v1
- Date: Thu, 20 Jul 2023 07:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:09:22.864514
- Title: A Dataset and Strong Baselines for Classification of Czech News Texts
- Title(参考訳): チェコ語ニューステキストの分類のためのデータセットと強力なベースライン
- Authors: Hynek Kydl\'i\v{c}ek, Jind\v{r}ich Libovick\'y
- Abstract要約: チェコ最大の分類データセットであるCZE-NEC(CZE-NEC)について述べる。
我々は、ニュースソース、ニュースカテゴリ、推論された著者の性別、週の日という4つの分類タスクを定義した。
本研究では,市販の大規模生成言語モデルにおいて,言語固有の事前学習エンコーダ解析が優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models for Czech Natural Language Processing are often evaluated
on purely linguistic tasks (POS tagging, parsing, NER) and relatively simple
classification tasks such as sentiment classification or article classification
from a single news source. As an alternative, we present
CZEch~NEws~Classification~dataset (CZE-NEC), one of the largest Czech
classification datasets, composed of news articles from various sources
spanning over twenty years, which allows a more rigorous evaluation of such
models. We define four classification tasks: news source, news category,
inferred author's gender, and day of the week. To verify the task difficulty,
we conducted a human evaluation, which revealed that human performance lags
behind strong machine-learning baselines built upon pre-trained transformer
models. Furthermore, we show that language-specific pre-trained encoder
analysis outperforms selected commercially available large-scale generative
language models.
- Abstract(参考訳): チェコの自然言語処理のための事前学習されたモデルは、純粋に言語的なタスク(タグづけ、解析、ner)や、感情分類や記事分類などの比較的単純な分類タスクで評価されることが多い。
その代わり、チェコ最大の分類データセットの一つであるチェコ〜news~classification~dataset(cze-nec)を20年以上にわたるさまざまなソースのニュース記事から構成し、より厳密な評価を可能にする。
我々は、ニュースソース、ニュースカテゴリ、推定著者の性別、週の日という4つの分類タスクを定義した。
タスクの難易度を検証するために,人間による評価を行い,事前学習されたトランスフォーマーモデルに基づく強力な機械学習ベースラインに人間のパフォーマンスが遅れていることを明らかにした。
さらに, 言語固有の事前学習エンコーダ解析が, 市販の大規模生成言語モデルよりも優れていることを示す。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Benchmarking Multilabel Topic Classification in the Kyrgyz Language [6.15353988889181]
我々は,ニュースサイト24.KGの収集および注釈付きデータに基づいて,キルギスにおけるトピック分類のための新しい公開ベンチマークを提案する。
我々は、古典的な統計モデルとニューラルモデルの両方をトレーニングし、評価し、スコアを報告し、結果を議論し、将来の仕事の方向性を提案します。
論文 参考訳(メタデータ) (2023-08-30T11:02:26Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Using Language Models on Low-end Hardware [17.33390660481404]
本稿では,ローエンドハードウェア上でテキスト分類ネットワークをトレーニングするための固定言語モデルの有効性について検討する。
言語モデルとCNNアーキテクチャを組み合わせて、トピック、感情、ジャンルのシングルラベルとマルチラベルの分類をカバーする8つのデータセットで包括的なベンチマークを作成した。
論文 参考訳(メタデータ) (2023-05-03T18:00:03Z) - Text classification dataset and analysis for Uzbek language [0.0]
まず、ウズベク語テキスト分類のための新しいデータセットを10の異なるニュースや報道サイトから収集した。
また、従来のbag-of-wordsモデルからディープラーニングアーキテクチャまで、さまざまなモデルの包括的評価を行う。
実験により、リカレントニューラルネットワーク(RNN)と畳み込みニューラルネットワーク(CNN)に基づくモデルがルールベースモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-02-28T11:21:24Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。