論文の概要: Hierarchical Multi-Label Classification of Scientific Documents
- arxiv url: http://arxiv.org/abs/2211.02810v1
- Date: Sat, 5 Nov 2022 04:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 16:35:38.038716
- Title: Hierarchical Multi-Label Classification of Scientific Documents
- Title(参考訳): 科学的文書の階層的マルチラベル分類
- Authors: Mobashir Sadat, Cornelia Caragea
- Abstract要約: 我々はSciHTCと呼ばれる科学論文の階層的多ラベルテキスト分類のための新しいデータセットを提案する。
このデータセットは、ACM CCSツリーから186,160の論文と1,233のカテゴリを含んでいる。
我々の最良のモデルでは、マクロF1スコアが34.57%に達し、このデータセットが大きな研究機会を提供することを示す。
- 参考スコア(独自算出の注目度): 47.293189105900524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic topic classification has been studied extensively to assist
managing and indexing scientific documents in a digital collection. With the
large number of topics being available in recent years, it has become necessary
to arrange them in a hierarchy. Therefore, the automatic classification systems
need to be able to classify the documents hierarchically. In addition, each
paper is often assigned to more than one relevant topic. For example, a paper
can be assigned to several topics in a hierarchy tree. In this paper, we
introduce a new dataset for hierarchical multi-label text classification
(HMLTC) of scientific papers called SciHTC, which contains 186,160 papers and
1,233 categories from the ACM CCS tree. We establish strong baselines for HMLTC
and propose a multi-task learning approach for topic classification with
keyword labeling as an auxiliary task. Our best model achieves a Macro-F1 score
of 34.57% which shows that this dataset provides significant research
opportunities on hierarchical scientific topic classification. We make our
dataset and code available on Github.
- Abstract(参考訳): デジタルコレクションにおける科学的文書の管理と索引付けを支援するために,トピックの自動分類が広く研究されている。
近年、多くのトピックが利用可能になっているため、それらを階層的に配置する必要がある。
したがって、自動分類システムは、文書を階層的に分類できる必要がある。
さらに、各論文は複数の関連するトピックに割り当てられることが多い。
例えば、階層木内のいくつかのトピックに紙を割り当てることができる。
本稿では,ACM CCSツリーから186,160の論文と1,233のカテゴリを含む科学論文の階層的マルチラベルテキスト分類(HMLTC)のための新しいデータセットについて紹介する。
我々はHMLTCの強力なベースラインを確立し,キーワードラベリングを補助タスクとするトピック分類のためのマルチタスク学習手法を提案する。
最良モデルではマクロF1スコアが34.57%に達し,このデータセットは階層的な科学的トピック分類において重要な研究機会を提供することを示す。
データセットとコードをgithubで公開しています。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Learning Section Weights for Multi-Label Document Classification [4.74495279742457]
マルチラベル文書分類は、NLPにおける伝統的なタスクである。
我々はLSW(Learning Section Weights)と呼ばれる新しい手法を提案する。
LSWは各セクションに重みを割り当てることを学び、予測に重みを組み込む。
論文 参考訳(メタデータ) (2023-11-26T19:56:19Z) - Recent Advances in Hierarchical Multi-label Text Classification: A
Survey [11.709847202580505]
階層的マルチラベルテキスト分類は、入力されたテキストを複数のラベルに分類することを目的としており、その中にラベルが構造化され階層的である。
これは、科学文献のアーカイブなど、多くの現実世界の応用において重要なタスクである。
論文 参考訳(メタデータ) (2023-07-30T16:13:00Z) - Weakly Supervised Multi-Label Classification of Full-Text Scientific
Papers [29.295941972777978]
我々は,クロスペーパーネットワーク構造と紙内階層構造を用いて,弱い監督下で全文科学論文を分類するフレームワークEXを提案する。
ネットワーク対応のコントラスト調整モジュールと階層対応のアグリゲーションモジュールは、2種類の構造信号を利用するように設計されている。
論文 参考訳(メタデータ) (2023-06-24T15:27:55Z) - Seeded Hierarchical Clustering for Expert-Crafted Taxonomies [48.10324642720299]
ラベルなしコーパスを適合させる弱教師付きアルゴリズムであるHierSeedを提案する。
それはデータと効率の両方です。
SHCタスクの教師なしベースラインと教師なしベースラインの両方を3つの実世界のデータセットで上回る。
論文 参考訳(メタデータ) (2022-05-23T19:58:06Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - Label Hierarchy Transition: Delving into Class Hierarchies to Enhance
Deep Classifiers [40.993137740456014]
本稿では,階層型分類の課題に対処するために,ディープラーニングに基づく統一確率的フレームワークを提案する。
提案するフレームワークは、わずかに修正するだけで、既存のディープネットワークに容易に適応できる。
提案するLHTフレームワークを皮膚病変診断タスクに拡張し,コンピュータ支援診断におけるその大きな可能性を検証した。
論文 参考訳(メタデータ) (2021-12-04T14:58:36Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。