論文の概要: Efficient Few-shot Learning for Multi-label Classification of Scientific Documents with Many Classes
- arxiv url: http://arxiv.org/abs/2410.05770v1
- Date: Mon, 21 Oct 2024 13:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:59:37.067242
- Title: Efficient Few-shot Learning for Multi-label Classification of Scientific Documents with Many Classes
- Title(参考訳): 多様な学級を有する学術文書の多ラベル分類のための効率的なFew-shot学習
- Authors: Tim Schopf, Alexander Blatzheim, Nektarios Machner, Florian Matthes,
- Abstract要約: FusionSentは、多くのクラスで科学文書を数ショットで分類するための効率的かつ迅速なアプローチである。
実験の結果、FusionSentは平均6.0$$F_1$labelポイントで強いベースラインを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 44.51779041553597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific document classification is a critical task and often involves many classes. However, collecting human-labeled data for many classes is expensive and usually leads to label-scarce scenarios. Moreover, recent work has shown that sentence embedding model fine-tuning for few-shot classification is efficient, robust, and effective. In this work, we propose FusionSent (Fusion-based Sentence Embedding Fine-tuning), an efficient and prompt-free approach for few-shot classification of scientific documents with many classes. FusionSent uses available training examples and their respective label texts to contrastively fine-tune two different sentence embedding models. Afterward, the parameters of both fine-tuned models are fused to combine the complementary knowledge from the separate fine-tuning steps into a single model. Finally, the resulting sentence embedding model is frozen to embed the training instances, which are then used as input features to train a classification head. Our experiments show that FusionSent significantly outperforms strong baselines by an average of $6.0$ $F_{1}$ points across multiple scientific document classification datasets. In addition, we introduce a new dataset for multi-label classification of scientific documents, which contains 183,565 scientific articles and 130 classes from the arXiv category taxonomy. Code and data are available at https://github.com/sebischair/FusionSent.
- Abstract(参考訳): 科学的文書分類は重要な課題であり、しばしば多くのクラスが関与する。
しかし、多くのクラスのためにラベル付きデータを収集するのは高価であり、通常はラベル付きシナリオにつながる。
さらに、近年の研究では、数ショット分類のための文埋め込みモデルによる微調整が効率的で堅牢で効果的であることが示されている。
本研究はFusionSent(Fusion-based Sentence Embedding Fine-tuning)を提案する。
FusionSentは利用可能なトレーニング例とラベルテキストを使用して、対照的に2つの異なる文埋め込みモデルを微調整する。
その後、両方の微調整モデルのパラメータを融合させて、個別の微調整ステップからの相補的な知識を1つのモデルに組み合わせる。
最後に、結果の文埋め込みモデルを凍結してトレーニングインスタンスを埋め込む。
我々の実験は、FusionSentが複数の科学的文書分類データセットで平均6.0ドルのF_{1}$ポイントで強いベースラインを著しく上回ることを示した。
さらに,研究論文183,565件と,arXiv分類学の130科を含む,科学文献の多ラベル分類のための新しいデータセットについても紹介する。
コードとデータはhttps://github.com/sebischair/FusionSent.comで公開されている。
関連論文リスト
- Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification [0.0]
史料の効率的な分類は系譜学、法学、歴史学などの分野において重要である。
本稿では、ResNet、マスク付き画像変換器(Di)、埋め込みセグメンテーションなどのディープラーニングモデルを統合した表現型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-05-23T04:28:50Z) - Empowering Interdisciplinary Research with BERT-Based Models: An Approach Through SciBERT-CNN with Topic Modeling [0.0]
本稿では,SciBERTモデルとCNNを用いて,学術論文を体系的に分類する手法を提案する。
CNNは、畳み込みとプーリングを使用して特徴抽出を強化し、次元を減少させる。
論文 参考訳(メタデータ) (2024-04-16T05:21:47Z) - Learning Section Weights for Multi-Label Document Classification [4.74495279742457]
マルチラベル文書分類は、NLPにおける伝統的なタスクである。
我々はLSW(Learning Section Weights)と呼ばれる新しい手法を提案する。
LSWは各セクションに重みを割り当てることを学び、予測に重みを組み込む。
論文 参考訳(メタデータ) (2023-11-26T19:56:19Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - Gated recurrent units and temporal convolutional network for multilabel
classification [122.84638446560663]
本研究は,マルチラベル分類を管理するための新しいアンサンブル手法を提案する。
提案手法のコアは,Adamグラデーション最適化アプローチの変種で訓練された,ゲート再帰単位と時間畳み込みニューラルネットワークの組み合わせである。
論文 参考訳(メタデータ) (2021-10-09T00:00:16Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Multi-label Few/Zero-shot Learning with Knowledge Aggregated from
Multiple Label Graphs [8.44680447457879]
本稿では,異なる意味的ラベル関係をコードする複数のラベルグラフから知識を融合する,シンプルな多グラフ集約モデルを提案する。
本研究は,多グラフ知識集約を用いた手法が,少数・ゼロショットラベルのほとんどすべてにおいて,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2020-10-15T01:15:43Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。