論文の概要: TriTopic: Tri-Modal Graph-Based Topic Modeling with Iterative Refinement and Archetypes
- arxiv url: http://arxiv.org/abs/2602.19079v1
- Date: Sun, 22 Feb 2026 07:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.471657
- Title: TriTopic: Tri-Modal Graph-Based Topic Modeling with Iterative Refinement and Archetypes
- Title(参考訳): TriTopic: 反復的リファインメントとアーチタイプによるトリモーダルグラフベースのトピックモデリング
- Authors: Roman Egger,
- Abstract要約: セマンティック埋め込み、TF-IDF、メタデータを融合したトリモーダルグラフを用いて、これらの弱点に対処するフレームワークであるTriTopicを提案する。
TriTopicは、"平均文書"の概念を、センターのみではなく境界ケースによって定義されたアーキタイプベースのトピック表現に置き換える。
20のNewsグループ、BBC News、AG News、Arxivのベンチマークでは、TriTopicはデータセット毎に最も高いNMIを達成している。
- 参考スコア(独自算出の注目度): 0.40611352512781873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic modeling extracts latent themes from large text collections, but leading approaches like BERTopic face critical limitations: stochastic instability, loss of lexical precision ("Embedding Blur"), and reliance on a single data perspective. We present TriTopic, a framework that addresses these weaknesses through a tri-modal graph fusing semantic embeddings, TF-IDF, and metadata. Three core innovations drive its performance: hybrid graph construction via Mutual kNN and Shared Nearest Neighbors to eliminate noise and combat the curse of dimensionality; Consensus Leiden Clustering for reproducible, stable partitions; and Iterative Refinement that sharpens embeddings through dynamic centroid-pulling. TriTopic also replaces the "average document" concept with archetype-based topic representations defined by boundary cases rather than centers alone. In benchmarks across 20 Newsgroups, BBC News, AG News, and Arxiv, TriTopic achieves the highest NMI on every dataset (mean NMI 0.575 vs. 0.513 for BERTopic, 0.416 for NMF, 0.299 for LDA), guarantees 100% corpus coverage with 0% outliers, and is available as an open-source PyPI library.
- Abstract(参考訳): トピックモデリングは、大きなテキストコレクションから潜在テーマを抽出するが、BERTopicのような主要なアプローチは、確率的不安定性、語彙的精度の喪失("Embedding Blur")、単一データパースペクティブへの依存といった重要な制限に直面している。
セマンティック埋め込み、TF-IDF、メタデータを融合したトリモーダルグラフを用いて、これらの弱点に対処するフレームワークであるTriTopicを提案する。
Mutual kNNとShared Nearest Neighborsによるハイブリッドグラフ構築によるノイズ排除と次元の呪いと戦うこと、再現性のある安定したパーティションのためのConsensus Leiden Clustering、動的遠心分離による埋め込みを鋭くするIterative Refinementである。
TriTopicはまた、"平均文書"の概念を、センターのみではなく境界ケースによって定義されたアーキタイプベースのトピック表現に置き換えている。
20のニュースグループ、BBC News、AG News、Arxivのベンチマークでは、TriTopicはすべてのデータセット(BERTopicのNMI 0.575対0.513、NMFの0.416、LDAの0.299)で最も高いNMIを獲得し、100%のコーパスカバレッジを0%のアウトリーで保証し、オープンソースのPyPIライブラリとして利用できる。
関連論文リスト
- From Feature Interaction to Feature Generation: A Generative Paradigm of CTR Prediction Models [81.43473418572567]
CTR(Click-Through Rate)予測は、レコメンデーションシステムにおける中核的なタスクである。
本稿では,埋め込み次元の崩壊と情報冗長性に対処する新しい生成フレームワークを提案する。
SFGは埋没崩壊を緩和し,情報冗長性を低減し,性能向上を図っている。
論文 参考訳(メタデータ) (2025-12-16T03:17:18Z) - Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment [1.7188280334580195]
我々は、CLIPスタイルのコントラストトレーニングフレームワークを利用して、超スペクトルシーン理解のための視覚言語モデル(VLM)の最適化を試みる。
我々のフレームワークは、視覚バックボーンから凍結した大きな埋め込みモデルの潜在空間へのボクセルレベルの埋め込みをマッピングする。
提案手法は全パラメータの0.07パーセントしか更新していないが、最先端の性能が得られる。
論文 参考訳(メタデータ) (2025-09-20T23:23:04Z) - Tri-Learn Graph Fusion Network for Attributed Graph Clustering [5.2044462428583875]
本稿では,GCN,オートエンコーダ(AE),グラフ変換器からなる新しいディープクラスタリングフレームワークを提案する。
このフレームワークは、ユニークな3つの学習機構と特徴融合戦略を通じて、グローバルおよびローカル情報の識別と一貫性を高める。
ACMデータセットで約0.87%、Reutersデータセットで14.14%、USPSデータセットで7.58%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-07-18T03:25:07Z) - UNCA: A Neutrosophic-Based Framework for Robust Clustering and Enhanced Data Interpretation [1.2582887633807602]
統一ニューロソフィッククラスタリングアルゴリズム(UNCA)を提案する。
UNCAは、クラスタリング精度を改善するために、マルチフェイス戦略とニュートロソフィック論理を組み合わせる。
UNCAはいくつかの指標で従来の手法より優れています。
論文 参考訳(メタデータ) (2025-02-23T14:08:59Z) - Efficient Masked AutoEncoder for Video Object Counting and A Large-Scale Benchmark [52.339936954958034]
前景の動的不均衡は、ビデオオブジェクトのカウントにおいて大きな課題である。
本稿では,密度埋め込み型効率的なマスドオートエンコーダカウント(E-MAC)フレームワークを提案する。
さらに,渡り鳥保護のための自然シナリオにおいて,まず,大規模なビデオバードカウントデータセットであるDroneBirdを提案する。
論文 参考訳(メタデータ) (2024-11-20T06:08:21Z) - Federated Learning Resilient to Byzantine Attacks and Data Heterogeneity [59.17297282373628]
本稿では、データに対する悪意ある攻撃の文脈におけるグラディエント学習(FL)について述べる。
本稿では,収束解析と損失関数の中央値を用いた新しい平均ロバストアルゴリズム(RAGA)を提案する。
論文 参考訳(メタデータ) (2024-03-20T08:15:08Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Multi-View Clustering via Semi-non-negative Tensor Factorization [120.87318230985653]
半負のテンソル因子分解(Semi-NTF)に基づく新しいマルチビュークラスタリングを開発する。
本モデルは、ビュー間の関係を直接考慮し、ビュー間の補完情報を利用する。
さらに,提案手法の最適化アルゴリズムを提案し,そのアルゴリズムが常に定常KKT点に収束することを数学的に証明する。
論文 参考訳(メタデータ) (2023-03-29T14:54:19Z) - An Efficient Multi-Scale Fusion Network for 3D Organ at Risk (OAR)
Segmentation [2.6770199357488242]
我々はOARFocalFuseNetと呼ばれる新しいOARセグメンテーションフレームワークを提案する。
マルチスケールの特徴を融合させ、複数のスケールにわたるグローバルローカルコンテキストのキャプチャに焦点変調を用いる。
OARFocalFuseNetはOpenKBPデータセット上で0.7995のダイス係数と5.1435のハウスドルフ距離を得た。
論文 参考訳(メタデータ) (2022-08-15T19:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。