論文の概要: G2T: A simple but versatile framework for topic modeling based on
pretrained language model and community detection
- arxiv url: http://arxiv.org/abs/2304.06653v1
- Date: Thu, 13 Apr 2023 16:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 13:49:11.594453
- Title: G2T: A simple but versatile framework for topic modeling based on
pretrained language model and community detection
- Title(参考訳): G2T:事前学習言語モデルとコミュニティ検出に基づくトピックモデリングのためのシンプルだが汎用的なフレームワーク
- Authors: Leihang Zhang, Jiapeng Liu, Qiang Yan
- Abstract要約: クラスタリングベースのトピックモデルは、生成確率的なトピックモデルよりも優れたトピックを生成することができる。
本稿では,トピックモデリングのための簡易かつ効果的なフレームワークであるグラフ to トピック (G2T) を提案する。
G2Tはトピック番号を自動的に決定するだけでなく、文書内のトピックやトピックにおける単語の確率分布を与える。
- 参考スコア(独自算出の注目度): 1.6242924916178283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been reported that clustering-based topic models, which cluster
high-quality sentence embeddings with an appropriate word selection method, can
generate better topics than generative probabilistic topic models. However,
these approaches suffer from the inability to select appropriate parameters and
incomplete models that overlook the quantitative relation between words with
topics and topics with text. To solve these issues, we propose graph to topic
(G2T), a simple but effective framework for topic modelling. The framework is
composed of four modules. First, document representation is acquired using
pretrained language models. Second, a semantic graph is constructed according
to the similarity between document representations. Third, communities in
document semantic graphs are identified, and the relationship between topics
and documents is quantified accordingly. Fourth, the word--topic distribution
is computed based on a variant of TFIDF. Automatic evaluation suggests that G2T
achieved state-of-the-art performance on both English and Chinese documents
with different lengths. Human judgements demonstrate that G2T can produce
topics with better interpretability and coverage than baselines. In addition,
G2T can not only determine the topic number automatically but also give the
probabilistic distribution of words in topics and topics in documents. Finally,
G2T is publicly available, and the distillation experiments provide instruction
on how it works.
- Abstract(参考訳): 適切な単語選択法で高品質な文埋め込みをクラスタリングするクラスタリングに基づくトピックモデルは、生成確率的トピックモデルよりも優れたトピックを生成することが報告されている。
しかし,これらの手法は,テキストによる話題と話題の量的関係を無視する適切なパラメータや不完全なモデルを選択することができない。
これらの問題を解決するために,トピックモデリングのためのシンプルかつ効果的なフレームワークであるグラフ to トピック (G2T) を提案する。
フレームワークは4つのモジュールで構成される。
まず、事前訓練された言語モデルを用いて文書表現を取得する。
次に、文書表現間の類似性に応じて意味グラフを構築する。
第3に,文書意味グラフのコミュニティを特定し,トピックと文書の関係を定量化する。
第4に、単語-話題分布は、TFIDFの変種に基づいて計算される。
自動評価の結果,G2Tは異なる長さの英語と中国語の文書で最先端のパフォーマンスを達成したことが示唆された。
人間の判断は、G2Tがベースラインよりも解釈可能性とカバレッジでトピックを生成できることを示している。
さらに、G2Tはトピック番号を自動的に決定するだけでなく、文書内のトピックやトピックにおける単語の確率分布を与える。
最後に、G2Tは公開されており、蒸留実験は、その動作方法の指示を与える。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Bilingual Topic Models for Comparable Corpora [9.509416095106491]
ペア化された文書の分布間の結合機構を提案する。
異なる言語で書かれた文書の類似性を推定するために、浅いニューラルネットワークで学習した言語間単語埋め込みを用いる。
提案手法は2つのトピックモデルを拡張して評価する: 単語のバグ入力を仮定するLDAのバイリンガル適応と、テキスト構造の一部を意味的に一貫性のあるセグメントの境界に組み込んだモデル。
論文 参考訳(メタデータ) (2021-11-30T10:53:41Z) - Multiplex Graph Neural Network for Extractive Text Summarization [34.185093491514394]
抽出テキスト要約は、ある文書から最も代表的な文章を要約として抽出することを目的としている。
文と単語の異なる関係を共同でモデル化する新しい多重グラフ畳み込みネットワーク(Multi-GCN)を提案する。
マルチGCNに基づいて,抽出テキスト要約のための多重グラフ要約(Multi-GraS)モデルを提案する。
論文 参考訳(メタデータ) (2021-08-29T16:11:01Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。
文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。
実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-05-25T16:20:48Z) - Topic Modeling with Contextualized Word Representation Clusters [8.49454123392354]
トークンレベルの文脈化された単語表現のクラスタリングは、英語のテキストコレクションのトピックモデルと多くの類似点を共有する出力を生成する。
人気言語モデルの複数の異なる出力層から学習したトークンクラスタリングを評価する。
論文 参考訳(メタデータ) (2020-10-23T19:16:59Z) - Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for
Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文 参考訳(メタデータ) (2020-04-30T16:18:18Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。