論文の概要: TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters
- arxiv url: http://arxiv.org/abs/2201.06771v2
- Date: Wed, 19 Jan 2022 20:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 05:46:29.442703
- Title: TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters
- Title(参考訳): TaxoCom:新しいトピッククラスタの階層的発見によるトピック分類の完成
- Authors: Dongha Lee, Jiaming Shen, SeongKu Kang, Susik Yoon, Jiawei Han, Hwanjo
Yu
- Abstract要約: 我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
- 参考スコア(独自算出の注目度): 57.59286394188025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic taxonomies, which represent the latent topic (or category) structure of
document collections, provide valuable knowledge of contents in many
applications such as web search and information filtering. Recently, several
unsupervised methods have been developed to automatically construct the topic
taxonomy from a text corpus, but it is challenging to generate the desired
taxonomy without any prior knowledge. In this paper, we study how to leverage
the partial (or incomplete) information about the topic structure as guidance
to find out the complete topic taxonomy. We propose a novel framework for topic
taxonomy completion, named TaxoCom, which recursively expands the topic
taxonomy by discovering novel sub-topic clusters of terms and documents. To
effectively identify novel topics within a hierarchical topic structure,
TaxoCom devises its embedding and clustering techniques to be closely-linked
with each other: (i) locally discriminative embedding optimizes the text
embedding space to be discriminative among known (i.e., given) sub-topics, and
(ii) novelty adaptive clustering assigns terms into either one of the known
sub-topics or novel sub-topics. Our comprehensive experiments on two real-world
datasets demonstrate that TaxoCom not only generates the high-quality topic
taxonomy in terms of term coherency and topic coverage but also outperforms all
other baselines for a downstream task.
- Abstract(参考訳): 文書コレクションの潜在トピック(またはカテゴリ)構造を表すトピック分類は、web検索や情報フィルタリングといった多くのアプリケーションにおいて、コンテンツの貴重な知識を提供する。
近年,テキストコーパスからトピック分類を自動的に構築するための教師なし手法がいくつか開発されているが,事前の知識がなくても望ましい分類を生成することは困難である。
本稿では,トピック構造に関する部分的(あるいは不完全な)情報をどのように活用し,トピック分類の完全性を見出すかを検討する。
本稿では,トピック分類の完全化のための新しい枠組みであるtaxocomを提案し,用語と文書の新たなサブトピック・クラスターの発見により,トピック分類体系を再帰的に拡張する。
階層的なトピック構造の中で、新しいトピックを効果的に識別するために、TaxoComは、その埋め込みとクラスタリングテクニックを互いに密接にリンクするように考案した。
(i)局所的判別的埋め込みは、既知の(すなわち与えられた)サブトピック間で識別可能なテキスト埋め込み空間を最適化し、
(ii)新規適応クラスタリングは、既知のサブトピックまたは新しいサブトピックのいずれかに用語を割り当てる。
2つの実世界のデータセットに関する総合的な実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から高品質なトピック分類を生成するだけでなく、下流タスクにおける他のすべてのベースラインよりも優れています。
関連論文リスト
- Improving Retrieval in Theme-specific Applications using a Corpus
Topical Taxonomy [52.426623750562335]
ToTER (Topical Taxonomy Enhanced Retrieval) フレームワークを紹介する。
ToTERは、クエリとドキュメントの中心的なトピックを分類学のガイダンスで識別し、そのトピックの関連性を利用して、欠落したコンテキストを補う。
プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-03-07T02:34:54Z) - Topic Taxonomy Expansion via Hierarchy-Aware Topic Phrase Generation [58.3921103230647]
TopicExpanというトピック分類拡張のための新しいフレームワークを提案する。
TopicExpanは、新しいトピックに属するトピック関連用語を直接生成する。
2つの実世界のテキストコーパスの実験結果から、TopicExpanは出力の質という点で他のベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-18T22:38:49Z) - HyperMiner: Topic Taxonomy Mining with Hyperbolic Embedding [54.52651110749165]
本稿では,単語や話題を表現するために,メタボリック埋め込みを導入した新しいフレームワークを提案する。
双曲空間のツリー様性により、下層のセマンティック階層はより解釈可能なトピックをマイニングするためによりうまく利用することができる。
論文 参考訳(メタデータ) (2022-10-16T02:54:17Z) - TaxoEnrich: Self-Supervised Taxonomy Completion via Structure-Semantic
Representations [28.65753036636082]
本稿では,既存の分類学における意味的特徴と構造的情報の両方を効果的に活用する新しい分類学補完フレームワークを提案する。
分類エンリッチは,(1)概念の意味的意味と分類学的関係を,強力な事前学習言語モデルに基づいて組み込んだ分類記述型埋め込み,(2)分類の構造情報を符号化して候補位置表現を学習する分類認識シーケンシャルエンコーダの4つの構成要素から構成される。
異なるドメインからの4つの大規模な実世界のデータセットの実験は、TaxoEnrichがすべての評価指標の中で最高のパフォーマンスを達成し、過去の最先端よりも大きなマージンでパフォーマンスを向上していることを示している。
論文 参考訳(メタデータ) (2022-02-10T08:10:43Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - CoRel: Seed-Guided Topical Taxonomy Construction by Concept Learning and
Relation Transferring [37.1330815281983]
本稿では,概念名によって記述された種子分類を入力としてコーパスと種分類を取り入れた種誘導型地域分類構築法を提案する。
関係伝達モジュールは、複数の経路に沿ってユーザの興味ある関係を学習し、転送し、種分類構造を幅と深さで拡張する。
概念学習モジュールは、分類学を共同で埋め込むことで、各概念ノードのセマンティクスを豊かにする。
論文 参考訳(メタデータ) (2020-10-13T22:00:31Z) - Hierarchical Topic Mining via Joint Spherical Tree and Text Embedding [37.7780399311715]
階層的トピックマイニング(Hierarchical Topic Mining)は、ユーザーが関心のあるトピックを理解するのを助けるために、テキストコーパスから各カテゴリの代表語を抽出することを目的としている。
私たちのモデルは、JoSHと呼ばれ、高い効率と弱教師付き階層的テキスト分類タスクの恩恵を受ける、高品質な階層的トピックセットをマイニングしています。
論文 参考訳(メタデータ) (2020-07-18T23:30:47Z) - Octet: Online Catalog Taxonomy Enrichment with Self-Supervision [67.26804972901952]
オンラインカタログエンリッチメンTのための自己教師型エンドツーエンドフレームワークOctopを提案する。
本稿では,用語抽出のためのシーケンスラベリングモデルをトレーニングし,分類構造を捉えるためにグラフニューラルネットワーク(GNN)を用いることを提案する。
Octetは、オンラインカタログを、オープンワールド評価の2倍に強化する。
論文 参考訳(メタデータ) (2020-06-18T04:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。