論文の概要: Seed-Guided Topic Discovery with Out-of-Vocabulary Seeds
- arxiv url: http://arxiv.org/abs/2205.01845v1
- Date: Wed, 4 May 2022 01:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:30:22.865463
- Title: Seed-Guided Topic Discovery with Out-of-Vocabulary Seeds
- Title(参考訳): 外来種子を用いた種子誘導トピックの発見
- Authors: Yu Zhang, Yu Meng, Xuan Wang, Sheng Wang, Jiawei Han
- Abstract要約: シード誘導されたトピック発見アプローチは、ユーザが提供するシードを利用してトピック表現の用語を発見する。
本稿では,シード誘導された話題発見の課題を一般化し,語彙外種子を許容する。
本研究では,PLMの一般的な知識と,入力コーパスから学習した局所的意味論を相互に活用する,SeeTopicという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.744478898032376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discovering latent topics from text corpora has been studied for decades.
Many existing topic models adopt a fully unsupervised setting, and their
discovered topics may not cater to users' particular interests due to their
inability of leveraging user guidance. Although there exist seed-guided topic
discovery approaches that leverage user-provided seeds to discover
topic-representative terms, they are less concerned with two factors: (1) the
existence of out-of-vocabulary seeds and (2) the power of pre-trained language
models (PLMs). In this paper, we generalize the task of seed-guided topic
discovery to allow out-of-vocabulary seeds. We propose a novel framework, named
SeeTopic, wherein the general knowledge of PLMs and the local semantics learned
from the input corpus can mutually benefit each other. Experiments on three
real datasets from different domains demonstrate the effectiveness of SeeTopic
in terms of topic coherence, accuracy, and diversity.
- Abstract(参考訳): テキストコーパスから潜在トピックを発見することは何十年も前から研究されてきた。
既存のトピックモデルの多くは、完全に教師なしの設定を採用しており、その発見されたトピックは、ユーザのガイダンスを活用できないため、ユーザの特定の関心を満たさない可能性がある。
ユーザが提供した種を主題表現用語として利用する種誘導話題発見アプローチは存在するが,(1)外来種の存在と,(2)事前学習言語モデル(plm)の力という2つの要因にはあまり関心が持たない。
本稿では,種子誘導話題発見の課題を一般化し,語彙外種子を許容する。
我々は,plmの一般的な知識と入力コーパスから学習した局所意味論が相互に利益をもたらす新たな枠組みであるseetopicを提案する。
異なるドメインからの3つの実際のデータセットの実験は、トピックコヒーレンス、精度、多様性の観点から、SeeeTopicの有効性を示す。
関連論文リスト
- Personalized Topic Selection Model for Topic-Grounded Dialogue [24.74527189182273]
現在のモデルは、ユーザに興味がなく、文脈的に無関係なトピックを予測する傾向があります。
我々はtextbfTopic-grounded textbfDialogue のための textbfPersonalized topic stextbfElection model を提案する。
提案手法は,多種多様な応答を生成でき,最先端のベースラインを達成できる。
論文 参考訳(メタデータ) (2024-06-04T06:09:49Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Discovering Significant Topics from Legal Decisions with Selective
Inference [0.0]
本稿では,法的決定文から重要なトピックを発見するための自動パイプラインの提案と評価を行う。
本手法は, 結果, 話題語分布, ケーストピックの重みと有意に相関した症例トピックを同定する。
パイプラインによって導かれるトピックは,双方の分野の法的ドクトリンと一致しており,他の関連する法的分析タスクに有用であることを示す。
論文 参考訳(メタデータ) (2024-01-02T07:00:24Z) - Effective Seed-Guided Topic Discovery by Integrating Multiple Types of
Contexts [28.291684568220827]
本稿では,3種類の文脈から共同で学習し,その文脈信号をアンサンブルランキングプロセスを介して融合する反復的フレームワークSeedTopicMineを提案する。
さまざまなシードセットと複数のデータセットに基づいて、SeedTopicMineは、既存のシード誘導トピック発見アプローチよりも一貫性と正確なトピックを一貫して生成する。
論文 参考訳(メタデータ) (2022-12-12T16:03:38Z) - Topic Taxonomy Expansion via Hierarchy-Aware Topic Phrase Generation [58.3921103230647]
TopicExpanというトピック分類拡張のための新しいフレームワークを提案する。
TopicExpanは、新しいトピックに属するトピック関連用語を直接生成する。
2つの実世界のテキストコーパスの実験結果から、TopicExpanは出力の質という点で他のベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-18T22:38:49Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - OTTers: One-turn Topic Transitions for Open-Domain Dialogue [11.305029351461306]
オープンドメイン対話における混合イニシアティブは、新しいトピックを積極的に導入するシステムを必要とする。
1ターンのトピック遷移タスクは、システムが協調的で一貫性のある方法で2つのトピックを接続する方法を探索する。
論文 参考訳(メタデータ) (2021-05-28T10:16:59Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。