論文の概要: Learning Section Weights for Multi-Label Document Classification
- arxiv url: http://arxiv.org/abs/2311.15402v1
- Date: Sun, 26 Nov 2023 19:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:57:42.583275
- Title: Learning Section Weights for Multi-Label Document Classification
- Title(参考訳): 多段文書分類のための学習節重み付け
- Authors: Maziar Moradi Fard, Paula Sorrolla Bayod, Kiomars Motarjem, Mohammad
Alian Nejadi, Saber Akhondi, Camilo Thorne
- Abstract要約: マルチラベル文書分類は、NLPにおける伝統的なタスクである。
我々はLSW(Learning Section Weights)と呼ばれる新しい手法を提案する。
LSWは各セクションに重みを割り当てることを学び、予測に重みを組み込む。
- 参考スコア(独自算出の注目度): 4.74495279742457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-label document classification is a traditional task in NLP. Compared to
single-label classification, each document can be assigned multiple classes.
This problem is crucially important in various domains, such as tagging
scientific articles. Documents are often structured into several sections such
as abstract and title. Current approaches treat different sections equally for
multi-label classification. We argue that this is not a realistic assumption,
leading to sub-optimal results. Instead, we propose a new method called
Learning Section Weights (LSW), leveraging the contribution of each distinct
section for multi-label classification. Via multiple feed-forward layers, LSW
learns to assign weights to each section of, and incorporate the weights in the
prediction. We demonstrate our approach on scientific articles. Experimental
results on public (arXiv) and private (Elsevier) datasets confirm the
superiority of LSW, compared to state-of-the-art multi-label document
classification methods. In particular, LSW achieves a 1.3% improvement in terms
of macro averaged F1-score while it achieves 1.3% in terms of macro averaged
recall on the publicly available arXiv dataset.
- Abstract(参考訳): マルチラベル文書分類は、NLPにおける伝統的なタスクである。
シングルラベルの分類と比較すると、各文書は複数のクラスに割り当てられる。
この問題は科学論文のタグ付けなど、様々な分野において極めて重要である。
文書は、しばしば抽象やタイトルなどのいくつかのセクションに分けられる。
現在のアプローチでは、異なるセクションを複数ラベルの分類に等しく扱う。
これは現実的な仮定ではなく、準最適結果をもたらすと我々は主張する。
そこで我々は,複数ラベル分類における各セクションの寄与を利用して,LSW(Learning Section Weights)と呼ばれる新しい手法を提案する。
複数のフィードフォワード層によって、LSWは各セクションに重みを割り当て、予測に重みを組み込むことを学ぶ。
我々は科学的論文にアプローチを実演する。
パブリック(arXiv)およびプライベート(Elsevier)データセットの実験結果は、最先端のマルチラベル文書分類法と比較して、LSWの優位性を確認する。
特に、lswはマクロ平均化f1-scoreでは1.3%改善され、公開利用可能なarxivデータセットでのマクロ平均リコールでは1.3%向上した。
関連論文リスト
- Efficient Few-shot Learning for Multi-label Classification of Scientific Documents with Many Classes [44.51779041553597]
FusionSentは、多くのクラスで科学文書を数ショットで分類するための効率的かつ迅速なアプローチである。
実験の結果、FusionSentは平均6.0$$F_1$labelポイントで強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:52:35Z) - Open-world Multi-label Text Classification with Extremely Weak Supervision [30.85235057480158]
極弱監督(XWS)下でのオープンワールドマルチラベルテキスト分類について検討する。
まず、ユーザ記述を利用して、原文書のサブセットのキーフレーズに対して大きな言語モデル(LLM)をプロンプトし、クラスタリングによりラベル空間を構築する。
次に、ゼロショットのマルチラベル分類器を適用して、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
X-MLClassは、様々なデータセットにおいて、地平線ラベルの空間カバレッジが顕著に増加している。
論文 参考訳(メタデータ) (2024-07-08T04:52:49Z) - Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification [78.15629210659516]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - Hierarchical Multi-Label Classification of Scientific Documents [47.293189105900524]
我々はSciHTCと呼ばれる科学論文の階層的多ラベルテキスト分類のための新しいデータセットを提案する。
このデータセットは、ACM CCSツリーから186,160の論文と1,233のカテゴリを含んでいる。
我々の最良のモデルでは、マクロF1スコアが34.57%に達し、このデータセットが大きな研究機会を提供することを示す。
論文 参考訳(メタデータ) (2022-11-05T04:12:57Z) - Decision Making for Hierarchical Multi-label Classification with
Multidimensional Local Precision Rate [4.812468844362369]
我々は,各クラスの各対象に対して,多次元局所精度率 (mLPR) と呼ばれる新しい統計モデルを導入する。
我々は,mLPRの下位順序でクラス間でオブジェクトをソートするだけで,クラス階層を確実にすることができることを示す。
これに対し、階層を尊重しながら推定mLPRを用いてCATCHの実証バージョンを最大化する新しいアルゴリズムであるHierRankを導入する。
論文 参考訳(メタデータ) (2022-05-16T17:43:35Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Multi-label Few/Zero-shot Learning with Knowledge Aggregated from
Multiple Label Graphs [8.44680447457879]
本稿では,異なる意味的ラベル関係をコードする複数のラベルグラフから知識を融合する,シンプルな多グラフ集約モデルを提案する。
本研究は,多グラフ知識集約を用いた手法が,少数・ゼロショットラベルのほとんどすべてにおいて,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2020-10-15T01:15:43Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。