論文の概要: Seeded Hierarchical Clustering for Expert-Crafted Taxonomies
- arxiv url: http://arxiv.org/abs/2205.11602v1
- Date: Mon, 23 May 2022 19:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 08:49:39.323906
- Title: Seeded Hierarchical Clustering for Expert-Crafted Taxonomies
- Title(参考訳): 専門家分類学における階層的クラスタリング
- Authors: Anish Saha, Amith Ananthram, Emily Allaway, Heng Ji, Kathleen McKeown
- Abstract要約: ラベルなしコーパスを適合させる弱教師付きアルゴリズムであるHierSeedを提案する。
それはデータと効率の両方です。
SHCタスクの教師なしベースラインと教師なしベースラインの両方を3つの実世界のデータセットで上回る。
- 参考スコア(独自算出の注目度): 48.10324642720299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Practitioners from many disciplines (e.g., political science) use
expert-crafted taxonomies to make sense of large, unlabeled corpora. In this
work, we study Seeded Hierarchical Clustering (SHC): the task of automatically
fitting unlabeled data to such taxonomies using only a small set of labeled
examples. We propose HierSeed, a novel weakly supervised algorithm for this
task that uses only a small set of labeled seed examples. It is both data and
computationally efficient. HierSeed assigns documents to topics by weighing
document density against topic hierarchical structure. It outperforms both
unsupervised and supervised baselines for the SHC task on three real-world
datasets.
- Abstract(参考訳): 多くの分野(例えば政治学)の実践者は、大きくラベル付けされていないコーパスを理解するために専門家による分類を用いる。
本研究では,ラベル付き階層クラスタリング (shc: seeded hierarchical clustering) について検討を行った。
本稿では, ラベル付き種子の少数の例のみを用いた, 弱教師付きアルゴリズムであるHierSeedを提案する。
それはデータと計算効率の両方です。
HierSeedはドキュメントの密度をトピック階層構造と比較することで、ドキュメントをトピックに割り当てる。
SHCタスクの教師なしベースラインと教師なしベースラインの両方を3つの実世界のデータセットで上回る。
関連論文リスト
- HiLight: A Hierarchy-aware Light Global Model with Hierarchical Local ConTrastive Learning [3.889612454093451]
階層的テキスト分類(HTC)はマルチラベル分類(MLC)のサブタスクである
階層型局所コントラスト学習(HiLCL)と呼ばれる階層型情報を導入するための新しい学習課題を提案する。
論文 参考訳(メタデータ) (2024-08-11T14:26:58Z) - TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision [41.05874642535256]
階層的なテキスト分類は、ラベル分類における各文書を一連のクラスに分類することを目的としている。
初期の研究は、大量の人間の注釈付きデータを必要とする完全または半教師付き手法に重点を置いていた。
我々は、最小限の監督量で階層的なテキスト分類に取り組んでおり、各ノードのクラス名のみを唯一の監督として使用しています。
論文 参考訳(メタデータ) (2024-02-29T22:26:07Z) - Adopting the Multi-answer Questioning Task with an Auxiliary Metric for
Extreme Multi-label Text Classification Utilizing the Label Hierarchy [10.87653109398961]
本稿では,過度なマルチラベル分類のための複数問合せタスクを採用する。
本研究では,提案手法と評価基準を法域に適用する。
論文 参考訳(メタデータ) (2023-03-02T08:40:31Z) - Hierarchical Multi-Label Classification of Scientific Documents [47.293189105900524]
我々はSciHTCと呼ばれる科学論文の階層的多ラベルテキスト分類のための新しいデータセットを提案する。
このデータセットは、ACM CCSツリーから186,160の論文と1,233のカテゴリを含んでいる。
我々の最良のモデルでは、マクロF1スコアが34.57%に達し、このデータセットが大きな研究機会を提供することを示す。
論文 参考訳(メタデータ) (2022-11-05T04:12:57Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T05:01:24Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - GPU-based Self-Organizing Maps for Post-Labeled Few-Shot Unsupervised
Learning [2.922007656878633]
少ないショット分類は、非常に限られたラベル付き例を使って分類器を訓練することを目的としている機械学習の課題である。
本稿では,無指導で表現を学習する分類タスクである,ラベル付き数発の教師なし学習の問題について,アノテートされたごく少数の例を用いて後述する。
論文 参考訳(メタデータ) (2020-09-04T13:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。