論文の概要: Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision
- arxiv url: http://arxiv.org/abs/2111.12796v1
- Date: Wed, 24 Nov 2021 21:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-05 03:51:24.484529
- Title: Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision
- Title(参考訳): 対象カテゴリー名を用いたカテゴリー外文書の識別
- Authors: Dongha Lee, Dongmin Hyun, Jiawei Han, Hwanjo Yu
- Abstract要約: Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 64.671654559798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying outlier documents, whose content is different from the majority
of the documents in a corpus, has played an important role to manage a large
text collection. However, due to the absence of explicit information about the
inlier (or target) distribution, existing unsupervised outlier detectors are
likely to make unreliable results depending on the density or diversity of the
outliers in the corpus. To address this challenge, we introduce a new task
referred to as out-of-category detection, which aims to distinguish the
documents according to their semantic relevance to the inlier (or target)
categories by using the category names as weak supervision. In practice, this
task can be widely applicable in that it can flexibly designate the scope of
target categories according to users' interests while requiring only the
target-category names as minimum guidance. In this paper, we present an
out-of-category detection framework, which effectively measures how confidently
each document belongs to one of the target categories based on its
category-specific relevance score. Our framework adopts a two-step approach;
(i) it first generates the pseudo-category label of all unlabeled documents by
exploiting the word-document similarity encoded in a text embedding space, then
(ii) it trains a neural classifier by using the pseudo-labels in order to
compute the confidence from its target-category prediction. The experiments on
real-world datasets demonstrate that our framework achieves the best detection
performance among all baseline methods in various scenarios specifying
different target categories.
- Abstract(参考訳): コーパス内の文書の大部分とは異なる内容の外部文書を識別することは、大規模なテキストコレクションを管理する上で重要な役割を担っている。
しかし、不純物(または目標物)の分布に関する明示的な情報がないため、既存の教師なしの外れ値検出器は、コーパス内の外れ値の密度や多様性に応じて信頼できない結果をもたらす可能性がある。
この課題に対処すべく,カテゴリ名の弱化を指標として,カテゴリ名を用いて,イリアー(あるいはターゲット)カテゴリに対する意味的関連性に基づいて文書を識別することを目的とした,カテゴリ外検出と呼ばれる新しいタスクを導入する。
実際には、ターゲットカテゴリ名のみを最小限のガイダンスとして必要としながら、ユーザの関心に応じて対象カテゴリの範囲を柔軟に指定できるという点で、このタスクは広く適用できる。
本稿では,各文書がカテゴリ固有の関連度スコアに基づいて,各文書がどのカテゴリに属するかを効果的に測定する,カテゴリ外検出フレームワークを提案する。
当社のフレームワークは2段階のアプローチを採用しています。
(i)テキスト埋め込み空間に符号化された単語文書類似性を利用して、まず、ラベルなし文書の擬似分類ラベルを生成し、次に、
(ii)疑似ラベルを用いて神経分類器を訓練し、目標カテゴリー予測からの信頼度を算出する。
実世界のデータセットを用いた実験により,本フレームワークは,対象とするカテゴリの異なるシナリオにおいて,すべてのベースライン手法の中で最高の検出性能を達成できることを示した。
関連論文リスト
- FastClass: A Time-Efficient Approach to Weakly-Supervised Text
Classification [14.918600168973564]
本稿では,効率的な弱教師付き分類手法であるFastClassを提案する。
センシティブテキスト表現を使用して、外部ラベルなしコーパスからクラス関連文書を検索する。
実験により,提案手法は,分類精度の観点からキーワード駆動モデルよりも優れており,訓練速度のオーダー・オブ・マグニチュードが高速であることが確認された。
論文 参考訳(メタデータ) (2022-12-11T13:43:22Z) - Cluster-to-adapt: Few Shot Domain Adaptation for Semantic Segmentation
across Disjoint Labels [80.05697343811893]
クラスタ・トゥ・アダプティブ(Cluster-to-Adapt, C2A)は、セグメンテーションデータセット間のドメイン適応のための、計算的に効率的なクラスタリングベースのアプローチである。
変換された特徴空間に強制されるそのようなクラスタリングの目的は、ソースドメインとターゲットドメインのカテゴリを自動的に選択するのに役立つことを示す。
論文 参考訳(メタデータ) (2022-08-04T17:57:52Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。