論文の概要: Introducing Three New Benchmark Datasets for Hierarchical Text Classification
- arxiv url: http://arxiv.org/abs/2411.19119v1
- Date: Thu, 28 Nov 2024 13:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:01.540284
- Title: Introducing Three New Benchmark Datasets for Hierarchical Text Classification
- Title(参考訳): 階層型テキスト分類のための3つのベンチマークデータセットの導入
- Authors: Jaco du Toit, Herman Redelinghuys, Marcel Dunaiski,
- Abstract要約: 研究出版分野において,HTCのベンチマークデータセットを新たに3つ導入する。
本稿では,データセットの信頼性とロバスト性を改善するために,それらの分類を組み合わせるアプローチを提案する。
クラスタリングに基づく分析によって作成した3つのデータセットを評価し,提案手法が高品質なデータセットを実現することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Hierarchical Text Classification (HTC) is a natural language processing task with the objective to classify text documents into a set of classes from a structured class hierarchy. Many HTC approaches have been proposed which attempt to leverage the class hierarchy information in various ways to improve classification performance. Machine learning-based classification approaches require large amounts of training data and are most-commonly compared through three established benchmark datasets, which include the Web Of Science (WOS), Reuters Corpus Volume 1 Version 2 (RCV1-V2) and New York Times (NYT) datasets. However, apart from the RCV1-V2 dataset which is well-documented, these datasets are not accompanied with detailed description methodologies. In this paper, we introduce three new HTC benchmark datasets in the domain of research publications which comprise the titles and abstracts of papers from the Web of Science publication database. We first create two baseline datasets which use existing journal-and citation-based classification schemas. Due to the respective shortcomings of these two existing schemas, we propose an approach which combines their classifications to improve the reliability and robustness of the dataset. We evaluate the three created datasets with a clustering-based analysis and show that our proposed approach results in a higher quality dataset where documents that belong to the same class are semantically more similar compared to the other datasets. Finally, we provide the classification performance of four state-of-the-art HTC approaches on these three new datasets to provide baselines for future studies on machine learning-based techniques for scientific publication classification.
- Abstract(参考訳): Hierarchical Text Classification (HTC)は、テキスト文書を構造化されたクラス階層からクラスに分類することを目的とした自然言語処理タスクである。
クラス階層情報を様々な方法で活用し、分類性能を向上させるために、多くのHTCアプローチが提案されている。
機械学習ベースの分類アプローチは、大量のトレーニングデータを必要とし、Web Of Science(WOS)、Reuters Corpus Volume 1 Version 2(RCV1-V2)、New York Times(NYT)データセットを含む、確立された3つのベンチマークデータセットを通じて、最も一般的である。
しかし、十分に文書化されているRCV1-V2データセットとは別に、これらのデータセットには詳細な記述方法がない。
本稿では,論文のタイトルと要約をWeb of Scienceの出版データベースから作成する研究出版分野における新たなHTCベンチマークデータセットを3つ紹介する。
まず、既存のジャーナルと引用に基づく分類スキーマを使用する2つのベースラインデータセットを作成します。
これら2つの既存スキーマの欠点により、データセットの信頼性と堅牢性を改善するために、それらの分類を組み合わせるアプローチを提案する。
クラスタリングに基づく分析によって作成した3つのデータセットを評価し,提案手法により,同一クラスに属する文書が他のデータセットと意味的に類似しているような,高品質なデータセットが得られることを示す。
最後に、これらの3つの新しいデータセットに対して、最新のHTCの4つのアプローチの分類性能を提供し、科学出版分類のための機械学習ベースの技術に関する将来の研究のベースラインを提供する。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - ELFIS: Expert Learning for Fine-grained Image Recognition Using Subsets [6.632855264705276]
ファイングラインド・ビジュアル・認識のためのエキスパート・ラーニング・フレームワークであるELFISを提案する。
ニューラルネットワークベースのエキスパートのセットは、メタカテゴリに焦点を当ててトレーニングされ、マルチタスクフレームワークに統合される。
実験では、CNNとトランスフォーマーベースのネットワークを使用して、最大+1.3%の精度でSoTA FGVRベンチマークが改善された。
論文 参考訳(メタデータ) (2023-03-16T12:45:19Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - GuCNet: A Guided Clustering-based Network for Improved Classification [15.747227188672088]
本稿では,既存の有分別データセットの分類容易性を活用した,新しい,かつ非常に単純な分類手法を提案する。
実験データセットとのセマンティックな関係を持たないかもしれないガイドデータセットは、提案されたネットワークは、課題データセットのクラスワイドな特徴をガイドセットの異なるクラスタに埋め込もうとする。
論文 参考訳(メタデータ) (2020-10-11T10:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。