論文の概要: MPTopic: Improving topic modeling via Masked Permuted pre-training
- arxiv url: http://arxiv.org/abs/2309.01015v1
- Date: Sat, 2 Sep 2023 20:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 23:49:08.924582
- Title: MPTopic: Improving topic modeling via Masked Permuted pre-training
- Title(参考訳): MPTopic: Masked Permuted Pre-trainingによるトピックモデリングの改善
- Authors: Xinche Zhang, Evangelos milios
- Abstract要約: 本稿では,TF-RDF の洞察を生かしたクラスタリングアルゴリズム MPTopic を提案する。
MPTopicとTF-RDFの相乗効果で識別されたトピックキーワードはBERTopicとTop2Vecで抽出されたキーワードよりも優れていることは明らかである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic modeling is pivotal in discerning hidden semantic structures within
texts, thereby generating meaningful descriptive keywords. While innovative
techniques like BERTopic and Top2Vec have recently emerged in the forefront,
they manifest certain limitations. Our analysis indicates that these methods
might not prioritize the refinement of their clustering mechanism, potentially
compromising the quality of derived topic clusters. To illustrate, Top2Vec
designates the centroids of clustering results to represent topics, whereas
BERTopic harnesses C-TF-IDF for its topic extraction.In response to these
challenges, we introduce "TF-RDF" (Term Frequency - Relative Document
Frequency), a distinctive approach to assess the relevance of terms within a
document. Building on the strengths of TF-RDF, we present MPTopic, a clustering
algorithm intrinsically driven by the insights of TF-RDF. Through comprehensive
evaluation, it is evident that the topic keywords identified with the synergy
of MPTopic and TF-RDF outperform those extracted by both BERTopic and Top2Vec.
- Abstract(参考訳): トピックモデリングはテキスト内の隠れセマンティック構造を識別する上で重要である。
BERTopicやTop2Vecといったイノベーティブなテクニックは、最近その前面に現れている。
分析の結果,これらの手法はクラスタリング機構の改良を優先しない可能性があり,派生トピッククラスタの品質を損なう可能性がある。
BERTopicはそのトピック抽出にC-TF-IDFを利用するのに対し、Top2Vecはクラスタリング結果のセントロイドを指定しており、これらの課題に対応するために、文書内の用語の関連性を評価するためのユニークなアプローチである"TF-RDF"(Term Frequency - Relative Document Frequency)を導入する。
tf-rdfの強みを基盤として,tf-rdfの知見を生かしたクラスタリングアルゴリズムmptopicを提案する。
総合評価により,MPTopic と TF-RDF の相乗効果が,BERTopic と Top2Vec で抽出したキーワードよりも優れていることが明らかとなった。
関連論文リスト
- HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Dual-modal Prior Semantic Guided Infrared and Visible Image Fusion for Intelligent Transportation System [22.331591533400402]
インテリジェントトランスポートシステム(ITS)における赤外線および可視画像融合(IVF)の役割
本稿では,2つのモーダリティ戦略に基づく先行的意味誘導画像融合法を提案する。
論文 参考訳(メタデータ) (2024-03-24T16:41:50Z) - Controllable Topic-Focused Abstractive Summarization [57.8015120583044]
制御された抽象的な要約は、特定の側面をカバーするために、ソース記事の凝縮したバージョンを作成することに焦点を当てる。
本稿では,トピックに着目した要約を生成可能なトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-12T03:51:38Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - A Clustering-guided Contrastive Fusion for Multi-view Representation
Learning [7.630965478083513]
本稿では、ビュー固有表現をビュー共通表現に融合する深層融合ネットワークを提案する。
また、ビュー共通表現とビュー固有表現を一致させる非対称なコントラスト戦略を設計する。
不完全な視点では,提案手法は競合相手よりもノイズ干渉に抵抗する。
論文 参考訳(メタデータ) (2022-12-28T07:21:05Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - BERTopic: Neural topic modeling with a class-based TF-IDF procedure [0.0]
本稿では,クラスタリングタスクとしてのアプローチトピックモデリングの実現可能性を拡張するトピックモデルであるBERTopicを紹介する。
BERTopicはコヒーレントなトピックを生成し、古典的なモデルを含む様々なベンチマークと、より最近のトピックモデリングのクラスタリングアプローチに従うベンチマークで競争力を維持している。
論文 参考訳(メタデータ) (2022-03-11T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。