論文の概要: Choosing the Number of Topics in LDA Models -- A Monte Carlo Comparison
of Selection Criteria
- arxiv url: http://arxiv.org/abs/2212.14074v1
- Date: Wed, 28 Dec 2022 19:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:12:03.441828
- Title: Choosing the Number of Topics in LDA Models -- A Monte Carlo Comparison
of Selection Criteria
- Title(参考訳): LDAモデルにおけるトピック数の選択 -選択基準のモンテカルロ比較
- Authors: Victor Bystrov, Viktoriia Naboka, Anna Staszewska-Bystrova, Peter
Winker
- Abstract要約: 最近開発された特異ベイズ情報基準(sBIC)の性能を評価する。
sBICは、特異統計モデルに実装できる標準BICの一般化である。
適切なトピック数を考慮に入れた異なる基準を用いて、パフォーマンスを測定し、DGPから関連するトピックが特定されるかどうかを判断する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting the number of topics in LDA models is considered to be a difficult
task, for which alternative approaches have been proposed. The performance of
the recently developed singular Bayesian information criterion (sBIC) is
evaluated and compared to the performance of alternative model selection
criteria. The sBIC is a generalization of the standard BIC that can be
implemented to singular statistical models. The comparison is based on Monte
Carlo simulations and carried out for several alternative settings, varying
with respect to the number of topics, the number of documents and the size of
documents in the corpora. Performance is measured using different criteria
which take into account the correct number of topics, but also whether the
relevant topics from the DGPs are identified. Practical recommendations for LDA
model selection in applications are derived.
- Abstract(参考訳): LDAモデルにおけるトピック数の選択は、別のアプローチが提案されているため難しい課題であると考えられる。
最近開発された特異ベイズ情報基準(sBIC)の性能を評価し,代替モデル選択基準の性能と比較した。
sBICは、特異統計モデルに実装できる標準BICの一般化である。
この比較はモンテカルロシミュレーションに基づいており、トピックの数、ドキュメントの数、コーパス内のドキュメントのサイズなどによって異なるいくつかの代替設定で実施されている。
適切なトピック数を考慮に入れた異なる基準を用いて、パフォーマンスを測定し、DGPから関連するトピックが特定されるかどうかを判断する。
アプリケーションにおけるLDAモデル選択のための実用的なレコメンデーションが導出される。
関連論文リスト
- BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - The Interpolating Information Criterion for Overparameterized Models [49.283527214211446]
補間情報基準(Interpolating Information Criterion)は,モデル選択に事前選択を自然に取り入れたモデル品質の尺度であることを示す。
我々の新しい情報基準は、モデルの事前の誤特定、幾何学的およびスペクトル的特性を考慮に入れており、既知の経験的および理論的挙動と数値的に一致している。
論文 参考訳(メタデータ) (2023-07-15T12:09:54Z) - Investigating Failures to Generalize for Coreference Resolution Models [93.95952368743919]
本稿では,現在のコア参照解決モデルの誤差が,データセット間での運用方法の相違にどの程度関連しているかを検討する。
具体的には、モデル性能をいくつかのタイプのコア参照に対応するカテゴリに分け、分解する。
このブレークダウンは、異なるコア参照タイプをまたいだ一般化能力において、最先端モデルがどのように異なるかを調べるのに役立ちます。
論文 参考訳(メタデータ) (2023-03-16T05:32:02Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Selection of a representative sorting model in a preference
disaggregation setting: a review of existing procedures, new proposals, and
experimental comparison [4.447467536572626]
複数の基準のソートという文脈における選好の不合理性について考察する。
間接選好に適合するソートモデルの多重性を考えると、1つの代表モデルを選択すると、異なる方法でソートを行うことができる。
本稿では,厳密な代入規則を実践する3つの新しい手順を提案する。
論文 参考訳(メタデータ) (2022-08-30T02:01:35Z) - Have we been Naive to Select Machine Learning Models? Noisy Data are
here to Stay! [2.094821665776961]
モデル選択手順は、通常、特定の集合における特定の計量を最大化するモデルを選択する単一基準決定である。
これは非常に単純であり、過剰な探索現象のため、過度に適合したモデルの選択が不十分である、と我々は主張する。
4つの理論的最適条件を定義し、モデルをよりよく選択し、分析することができる。
論文 参考訳(メタデータ) (2022-07-14T04:20:08Z) - Filter Methods for Feature Selection in Supervised Machine Learning
Applications -- Review and Benchmark [0.0]
本稿では,特徴選択ベンチマークに関する文献を合成し,広く使用されているR環境における58の手法の性能評価を行う。
MLモデルでは難しい4つの典型的なデータセットシナリオについて検討する。
論文 参考訳(メタデータ) (2021-11-23T20:20:24Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Multi-label learning for dynamic model type recommendation [13.304462985219237]
本稿では,オンラインローカルプール(OLP)技術のための問題非依存型動的ベースクラス化モデルを提案する。
提案するフレームワークは,関連するモデルタイプセットを推奨するマルチラベルメタ分類器を構築する。
実験の結果、異なるデータ分布は局所的な範囲で異なるモデルタイプを好んだ。
論文 参考訳(メタデータ) (2020-04-01T16:42:12Z) - Learning to Select Base Classes for Few-shot Classification [96.92372639495551]
我々は、数ショットモデルの一般化性能を示す指標として、類似度比を用いる。
次に、類似度比に対する部分モジュラー最適化問題として基底クラス選択問題を定式化する。
論文 参考訳(メタデータ) (2020-04-01T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。