論文の概要: Disentangling Similarity and Relatedness in Topic Models
- arxiv url: http://arxiv.org/abs/2603.10619v1
- Date: Wed, 11 Mar 2026 10:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.895511
- Title: Disentangling Similarity and Relatedness in Topic Models
- Title(参考訳): トピックモデルにおける類似性と関連性を区別する
- Authors: Hanlin Xiao, Mauricio A. Álvarez, Rainer Breitling,
- Abstract要約: 異なるモデルファミリーがそれぞれのトピックにおいて異なる意味構造を捉えていることを示す。
このスコアラを複数のコーパスおよびトピックモデルファミリーの総合的な評価に適用する。
本稿では、トピックモデル評価に不可欠な軸として類似性と関連性を確立し、モデルファミリとコーパスをまたいだ特徴付けのための信頼性の高いパイプラインを提供する。
- 参考スコア(独自算出の注目度): 6.597839688012534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advancement of large language models has spurred a growing trend of integrating pre-trained language model (PLM) embeddings into topic models, fundamentally reshaping how topics capture semantic structure. Classical models such as Latent Dirichlet Allocation (LDA) derive topics from word co-occurrence statistics, whereas PLM-augmented models anchor these statistics to pre-trained embedding spaces, imposing a prior that also favours clustering of semantically similar words. This structural difference can be captured by the psycholinguistic dimensions of thematic relatedness and taxonomic similarity of the topic words. To disentangle these dimensions in topic models, we construct a large synthetic benchmark of word pairs using LLM-based annotation to train a neural scoring function. We apply this scorer to a comprehensive evaluation across multiple corpora and topic model families, revealing that different model families capture distinct semantic structure in their topics. We further demonstrate that similarity and relatedness scores successfully predict downstream task performance depending on task requirements. This paper establishes similarity and relatedness as essential axes for topic model evaluation and provides a reliable pipeline for characterising these across model families and corpora.
- Abstract(参考訳): 近年の大規模言語モデルの進歩は、トピックモデルに事前訓練された言語モデル(PLM)を組み込むことで、トピックがセマンティック構造をキャプチャする方法を根本的に変える傾向を加速させている。
ラテント・ディリクレ・アロケーション(LDA)のような古典的なモデルは、単語共起統計からトピックを導出する一方、PLM拡張モデルはこれらの統計を事前訓練された埋め込み空間に固定し、前者は意味論的に類似した単語のクラスタリングも好んでいる。
この構造的差異は、主題語の主題的関連性と分類学的類似性の心理言語学的次元によって捉えられる。
トピックモデルにおいてこれらの次元を乱すため、LLMアノテーションを用いて単語ペアの大規模な合成ベンチマークを構築し、ニューラルスコアリング関数を訓練する。
このスコアラを複数のコーパスおよびトピックモデルファミリーの総合的な評価に適用し、異なるモデルファミリーがトピックにおいて異なるセマンティック構造を捉えていることを明らかにする。
さらに,タスク要求に応じて,類似度と関連性スコアがダウンストリームタスクのパフォーマンスを予測することを実証した。
本稿では、トピックモデル評価に不可欠な軸として類似性と関連性を確立し、モデルファミリとコーパスをまたいだ特徴付けのための信頼性の高いパイプラインを提供する。
関連論文リスト
- Geometry of Semantics in Next-Token Prediction: How Optimization Implicitly Organizes Linguistic Representations [34.88156871518115]
Next-token Prediction (NTP) 最適化により、言語モデルがテキストから意味構造を抽出し、整理する。
我々は、より大きな特異値に対応する概念が訓練中に学習され、自然な意味階層が生成されることを示した。
この洞察は、解釈可能なセマンティックカテゴリを識別するための概念記号を組み合わせる方法である、オーサントベースのクラスタリングを動機付けている。
論文 参考訳(メタデータ) (2025-05-13T08:46:04Z) - Multivariate Gaussian Topic Modelling: A novel approach to discover topics with greater semantic coherence [3.6381860041528085]
セマンティック・コヒーレントなトピックを識別する新しい多変量ガウス的トピックモデル(MGTM)を提案する。
このアプローチは20のニュースグループデータセットに適用され、vis-a-vis 4の他のベンチマークモデルによる解釈可能性の利点を実証する。
このモデルは、平均トピックコヒーレンス(0.7)と中央トピックコヒーレンス(0.76)をベンチマークモデルとして達成し、解釈可能で意味的にコヒーレントなトピックを特定する上で高い効果を示す。
論文 参考訳(メタデータ) (2025-03-19T09:25:54Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Rethinking the Construction of Effective Metrics for Understanding the
Mechanisms of Pretrained Language Models [2.5863812709449543]
本稿では,事前学習された言語モデルのメカニズムを理解するためのメトリクスを構築するための新しいラインを提案する。
実験結果に基づいて,BERT型事前学習言語モデルの動作機構に関する憶測を提案する。
論文 参考訳(メタデータ) (2023-10-19T04:16:40Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Testing Pre-trained Language Models' Understanding of Distributivity via
Causal Mediation Analysis [13.07356367140208]
自然言語推論のための新しい診断データセットであるDistNLIを紹介する。
モデルの理解の範囲は、モデルのサイズと語彙のサイズと関連していることがわかった。
論文 参考訳(メタデータ) (2022-09-11T00:33:28Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - High-order Semantic Role Labeling [86.29371274587146]
本稿では,ニューラルセマンティックロールラベリングモデルのための高階グラフ構造を提案する。
これにより、モデルは孤立述語-引数対だけでなく、述語-引数対間の相互作用も明示的に考慮することができる。
CoNLL-2009ベンチマークの7つの言語に対する実験結果から、高次構造学習技術は強力なSRLモデルに有益であることが示された。
論文 参考訳(メタデータ) (2020-10-09T15:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。