論文の概要: Weakly-Supervised Scientific Document Classification via
Retrieval-Augmented Multi-Stage Training
- arxiv url: http://arxiv.org/abs/2306.07193v1
- Date: Mon, 12 Jun 2023 15:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:02:28.195416
- Title: Weakly-Supervised Scientific Document Classification via
Retrieval-Augmented Multi-Stage Training
- Title(参考訳): 検索型多段階学習による科学的文書分類
- Authors: Ran Xu, Yue Yu, Joyce C. Ho, Carl Yang
- Abstract要約: 本稿では,ラベル名のみを用いた科学的文書分類のための弱教師付きアプローチを提案する。
科学的ドメインでは、ラベル名は文書コーパスに現れないドメイン固有の概念を含むことが多い。
WANDER は平均 11.9% で最高のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 24.2734548438594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific document classification is a critical task for a wide range of
applications, but the cost of obtaining massive amounts of human-labeled data
can be prohibitive. To address this challenge, we propose a weakly-supervised
approach for scientific document classification using label names only. In
scientific domains, label names often include domain-specific concepts that may
not appear in the document corpus, making it difficult to match labels and
documents precisely. To tackle this issue, we propose WANDER, which leverages
dense retrieval to perform matching in the embedding space to capture the
semantics of label names. We further design the label name expansion module to
enrich the label name representations. Lastly, a self-training step is used to
refine the predictions. The experiments on three datasets show that WANDER
outperforms the best baseline by 11.9% on average. Our code will be published
at https://github.com/ritaranx/wander.
- Abstract(参考訳): 科学的文書分類は幅広い応用にとって重要な課題であるが、大量の人ラベルデータを取得するコストは禁じられる可能性がある。
この課題に対処するために,ラベル名のみを用いた科学的文書分類のための弱教師付きアプローチを提案する。
科学的ドメインでは、ラベルには文書コーパスに現れないドメイン固有の概念が含まれており、ラベルと文書を正確に一致させることが困難である。
そこで本研究では,ラベル名のセマンティクスを捉えるために,埋め込み空間でのマッチングを行うために,密検索を利用するlourowを提案する。
さらにラベル名表現を充実させるためにラベル名拡張モジュールも設計する。
最後に、自己学習ステップを使用して予測を洗練する。
3つのデータセットの実験により、WADERは平均して11.9%のベースラインを上回ります。
私たちのコードはhttps://github.com/ritaranx/wanderで公開します。
関連論文リスト
- Open-world Multi-label Text Classification with Extremely Weak Supervision [30.85235057480158]
極弱監督(XWS)下でのオープンワールドマルチラベルテキスト分類について検討する。
まず、ユーザ記述を利用して、原文書のサブセットのキーフレーズに対して大きな言語モデル(LLM)をプロンプトし、クラスタリングによりラベル空間を構築する。
次に、ゼロショットのマルチラベル分類器を適用して、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
X-MLClassは、様々なデータセットにおいて、地平線ラベルの空間カバレッジが顕著に増加している。
論文 参考訳(メタデータ) (2024-07-08T04:52:49Z) - Towards Imbalanced Large Scale Multi-label Classification with Partially
Annotated Labels [8.977819892091]
マルチラベル分類は、複数のクラスにインスタンスを関連付けることができる日常生活において、広く発生する問題である。
本研究では,ラベルの不均衡の問題に対処し,部分ラベルを用いたニューラルネットワークのトレーニング方法について検討する。
論文 参考訳(メタデータ) (2023-07-31T21:50:48Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Adopting the Multi-answer Questioning Task with an Auxiliary Metric for
Extreme Multi-label Text Classification Utilizing the Label Hierarchy [10.87653109398961]
本稿では,過度なマルチラベル分類のための複数問合せタスクを採用する。
本研究では,提案手法と評価基準を法域に適用する。
論文 参考訳(メタデータ) (2023-03-02T08:40:31Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Does Head Label Help for Long-Tailed Multi-Label Text Classification [45.762555329467446]
実際の応用では、ラベル周波数の分布は長い尾を持つことが多く、少数のラベルが大量の文書に関連付けられている。
データ豊富なヘッドラベルからデータ貧弱なテールラベルへメタ知識を転送するヘッドツーテールネットワーク(HTTN)を提案する。
論文 参考訳(メタデータ) (2021-01-24T12:31:39Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - Label-Wise Document Pre-Training for Multi-Label Text Classification [14.439051753832032]
本稿では,ラベル認識情報を用いた文書表現を実現するLW-PT法を提案する。
基本的な考え方は、複数ラベルの文書は、複数のラベルの表現の組み合わせとして表すことができ、相関ラベルは、常に同じまたは類似の文書で共起するということである。
論文 参考訳(メタデータ) (2020-08-15T10:34:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。