論文の概要: ProSiT! Latent Variable Discovery with PROgressive SImilarity Thresholds
- arxiv url: http://arxiv.org/abs/2210.14763v1
- Date: Wed, 26 Oct 2022 14:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 14:30:44.778906
- Title: ProSiT! Latent Variable Discovery with PROgressive SImilarity Thresholds
- Title(参考訳): プロシット!
Progressive SImilarity Thresholdsを用いた潜在変数発見
- Authors: Tommaso Fornaciari, Dirk Hovy, Federico Bianchi
- Abstract要約: ProSiTは決定論的かつ解釈可能な手法であり、遅延次元の最適数を求める。
ほとんどの設定では、ProSiTはトピックのコヒーレンスと特異性の観点から他のメソッドにマッチするか、性能を上回ります。
- 参考スコア(独自算出の注目度): 35.09631990817093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The most common ways to explore latent document dimensions are topic models
and clustering methods. However, topic models have several drawbacks: e.g.,
they require us to choose the number of latent dimensions a priori, and the
results are stochastic. Most clustering methods have the same issues and lack
flexibility in various ways, such as not accounting for the influence of
different topics on single documents, forcing word-descriptors to belong to a
single topic (hard-clustering) or necessarily relying on word representations.
We propose PROgressive SImilarity Thresholds - ProSiT, a deterministic and
interpretable method, agnostic to the input format, that finds the optimal
number of latent dimensions and only has two hyper-parameters, which can be set
efficiently via grid search. We compare this method with a wide range of topic
models and clustering methods on four benchmark data sets. In most setting,
ProSiT matches or outperforms the other methods in terms six metrics of topic
coherence and distinctiveness, producing replicable, deterministic results.
- Abstract(参考訳): 潜在文書の次元を調べる最も一般的な方法はトピックモデルとクラスタリング手法である。
しかし、トピックモデルにはいくつかの欠点があり、例えば、先行する潜在次元の数を選ばなければならず、その結果は確率的である。
多くのクラスタリング手法は同じ問題を持ち、単一の文書に異なるトピックの影響を考慮しない、単語記述者が単一のトピック(ハードクラスタリング)に属さざるを得ない、あるいは必ずしも単語表現に依存するなど、様々な点で柔軟性に欠ける。
本稿では,入力形式によらない決定論的かつ解釈可能な手法であるprositを用いて,潜在次元の最適数を求め,グリッド探索によって効率的に設定可能な2つのハイパーパラメータのみを持つ漸進的類似性しきい値を提案する。
本研究では,この手法を4つのベンチマークデータセット上の幅広いトピックモデルとクラスタリング手法と比較する。
ほとんどの設定では、ProSiTはトピックのコヒーレンスと特徴性の6つの指標で他の手法と一致または比較し、複製可能な決定論的結果を生成する。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Self Supervised Correlation-based Permutations for Multi-View Clustering [7.972599673048582]
汎用データのためのエンドツーエンドのディープラーニングベースのMVCフレームワークを提案する。
我々のアプローチは、新しい置換に基づく正準相関目標を用いて有意義な融合データ表現を学習することである。
10つのMVCベンチマークデータセットを用いて、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T08:08:30Z) - High-dimensional variable clustering based on maxima of a weakly dependent random process [1.1999555634662633]
本稿では,Asymptotic Independent Block (AI-block)モデルと呼ばれる,変数クラスタリングのための新しいモデルのクラスを提案する。
このモデルのクラスは特定可能であり、つまり、分割の間に部分的な順序を持つ極大要素が存在し、統計的推測が可能であることを意味する。
また,変数のクラスタを列挙するチューニングパラメータに依存するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-02T08:24:26Z) - A parallelizable model-based approach for marginal and multivariate
clustering [0.0]
本稿では,モデルに基づくクラスタリングの頑健さを生かしたクラスタリング手法を提案する。
我々は、各マージンごとに異なる数のクラスタを持つことができる有限混合モデルを指定することで、この問題に対処する。
提案手法は、完全な(結合した)モデルベースのクラスタリング手法よりも、中程度から高次元の処理に適するだけでなく、計算的にも魅力的である。
論文 参考訳(メタデータ) (2022-12-07T23:54:41Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Selecting the number of clusters, clustering models, and algorithms. A
unifying approach based on the quadratic discriminant score [0.5330240017302619]
本稿では,多数のクラスタリングソリューションの中から選択可能な選択規則を提案する。
提案手法は,他の最先端手法と比較できない分割を比較できるという特徴的利点を有する。
論文 参考訳(メタデータ) (2021-11-03T15:38:58Z) - Multilayer Networks for Text Analysis with Multiple Data Types [0.21108097398435335]
本稿では,マルチレイヤネットワークとブロックモデルに基づく新しいフレームワークを提案する。
複数の種類の情報を考慮すると、トピックやドキュメントクラスタに関するより微妙なビューが得られます。
論文 参考訳(メタデータ) (2021-06-30T05:47:39Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。