論文の概要: Weakly Supervised Multi-Label Classification of Full-Text Scientific
Papers
- arxiv url: http://arxiv.org/abs/2306.14003v1
- Date: Sat, 24 Jun 2023 15:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 17:42:04.005861
- Title: Weakly Supervised Multi-Label Classification of Full-Text Scientific
Papers
- Title(参考訳): フルテキスト科学論文の弱い教師付きマルチラベル分類
- Authors: Yu Zhang, Bowen Jin, Xiusi Chen, Yanzhen Shen, Yunyi Zhang, Yu Meng,
Jiawei Han
- Abstract要約: 我々は,クロスペーパーネットワーク構造と紙内階層構造を用いて,弱い監督下で全文科学論文を分類するフレームワークEXを提案する。
ネットワーク対応のコントラスト調整モジュールと階層対応のアグリゲーションモジュールは、2種類の構造信号を利用するように設計されている。
- 参考スコア(独自算出の注目度): 29.295941972777978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instead of relying on human-annotated training samples to build a classifier,
weakly supervised scientific paper classification aims to classify papers only
using category descriptions (e.g., category names, category-indicative
keywords). Existing studies on weakly supervised paper classification are less
concerned with two challenges: (1) Papers should be classified into not only
coarse-grained research topics but also fine-grained themes, and potentially
into multiple themes, given a large and fine-grained label space; and (2) full
text should be utilized to complement the paper title and abstract for
classification. Moreover, instead of viewing the entire paper as a long linear
sequence, one should exploit the structural information such as citation links
across papers and the hierarchy of sections and paragraphs in each paper. To
tackle these challenges, in this study, we propose FUTEX, a framework that uses
the cross-paper network structure and the in-paper hierarchy structure to
classify full-text scientific papers under weak supervision. A network-aware
contrastive fine-tuning module and a hierarchy-aware aggregation module are
designed to leverage the two types of structural signals, respectively.
Experiments on two benchmark datasets demonstrate that FUTEX significantly
outperforms competitive baselines and is on par with fully supervised
classifiers that use 1,000 to 60,000 ground-truth training samples.
- Abstract(参考訳): 分類器を構築するために人間の注釈付きトレーニングサンプルに頼る代わりに、弱い教師付き科学論文分類は、カテゴリ記述(カテゴリ名、カテゴリ指示キーワードなど)のみを使用して論文を分類することを目的としている。
弱教師付き紙の分類に関する既存の研究は,(1)粗粒度研究の話題だけでなく,細粒度研究のテーマにも分類すべきであり,また,大きく細粒度なラベル空間を与えられた複数のテーマに分類すべきであり,(2)全文は論文の題名と要約を補完するために利用すべきである,という2つの課題にあまり関心が持たない。
また, 論文全体を長い線形シーケンスとして見るのではなく, 論文間の引用リンクや各論文の節や段落の階層構造などの構造情報を活用すべきである。
そこで本研究では,クロスペーパーネットワーク構造とインペーパー階層構造を用いて,弱い監督下で全文科学論文を分類するフレームワークであるfutexを提案する。
ネットワークアウェアコントラストファインチューニングモジュールと階層アウェアアグリゲーションモジュールはそれぞれ2種類の構造信号を利用するように設計されている。
2つのベンチマークデータセットの実験では、FUTEXは競争ベースラインを大幅に上回っており、1000から6万のグランドトルーストレーニングサンプルを使用する完全に教師付き分類器と同等であることが示された。
関連論文リスト
- Hierarchical Multi-Label Classification of Scientific Documents [47.293189105900524]
我々はSciHTCと呼ばれる科学論文の階層的多ラベルテキスト分類のための新しいデータセットを提案する。
このデータセットは、ACM CCSツリーから186,160の論文と1,233のカテゴリを含んでいる。
我々の最良のモデルでは、マクロF1スコアが34.57%に達し、このデータセットが大きな研究機会を提供することを示す。
論文 参考訳(メタデータ) (2022-11-05T04:12:57Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Hierarchical Metadata-Aware Document Categorization under Weak
Supervision [32.80303008934164]
タスクのための埋め込みベースの生成フレームワークであるHiMeCatを開発した。
本稿では,カテゴリ依存の同時モデリングが可能な新しい共同表現学習モジュールを提案する。
トレーニング文書を階層的に合成して,当初の小規模トレーニングセットを補完するデータ拡張モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-26T13:07:56Z) - Description Based Text Classification with Reinforcement Learning [34.18824470728299]
本稿では,各カテゴリのラベルをカテゴリ記述に関連付ける,テキスト分類のための新しいフレームワークを提案する。
我々は、幅広いテキスト分類タスクにおいて、強いベースラインよりも顕著なパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2020-02-08T02:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。