論文の概要: Choosing the Number of Topics in LDA Models -- A Monte Carlo Comparison
of Selection Criteria
- arxiv url: http://arxiv.org/abs/2212.14074v1
- Date: Wed, 28 Dec 2022 19:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:12:03.441828
- Title: Choosing the Number of Topics in LDA Models -- A Monte Carlo Comparison
of Selection Criteria
- Title(参考訳): LDAモデルにおけるトピック数の選択 -選択基準のモンテカルロ比較
- Authors: Victor Bystrov, Viktoriia Naboka, Anna Staszewska-Bystrova, Peter
Winker
- Abstract要約: 最近開発された特異ベイズ情報基準(sBIC)の性能を評価する。
sBICは、特異統計モデルに実装できる標準BICの一般化である。
適切なトピック数を考慮に入れた異なる基準を用いて、パフォーマンスを測定し、DGPから関連するトピックが特定されるかどうかを判断する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting the number of topics in LDA models is considered to be a difficult
task, for which alternative approaches have been proposed. The performance of
the recently developed singular Bayesian information criterion (sBIC) is
evaluated and compared to the performance of alternative model selection
criteria. The sBIC is a generalization of the standard BIC that can be
implemented to singular statistical models. The comparison is based on Monte
Carlo simulations and carried out for several alternative settings, varying
with respect to the number of topics, the number of documents and the size of
documents in the corpora. Performance is measured using different criteria
which take into account the correct number of topics, but also whether the
relevant topics from the DGPs are identified. Practical recommendations for LDA
model selection in applications are derived.
- Abstract(参考訳): LDAモデルにおけるトピック数の選択は、別のアプローチが提案されているため難しい課題であると考えられる。
最近開発された特異ベイズ情報基準(sBIC)の性能を評価し,代替モデル選択基準の性能と比較した。
sBICは、特異統計モデルに実装できる標準BICの一般化である。
この比較はモンテカルロシミュレーションに基づいており、トピックの数、ドキュメントの数、コーパス内のドキュメントのサイズなどによって異なるいくつかの代替設定で実施されている。
適切なトピック数を考慮に入れた異なる基準を用いて、パフォーマンスを測定し、DGPから関連するトピックが特定されるかどうかを判断する。
アプリケーションにおけるLDAモデル選択のための実用的なレコメンデーションが導出される。
関連論文リスト
- An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [38.39395973523944]
本稿では,データ選択のための3段階のスキームを提案し,既存の作品のレビューを行う。
データ特化ラベルとモデル特化ラベルを併用したよりターゲット的な手法の方が効率が良いことが判明した。
論文 参考訳(メタデータ) (2024-06-20T08:58:58Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Multi-Criteria Comparison as a Method of Advancing Knowledge-Guided Machine Learning [1.6574413179773761]
本稿では,AI/MLモデルの評価に適用可能な一般化可能なモデル評価手法について述べる。
本手法は,複数の科学的,理論的,実践的基準にまたがる,様々なタイプの候補モデルと構造の評価を行う。
論文 参考訳(メタデータ) (2024-03-18T14:50:48Z) - The Interpolating Information Criterion for Overparameterized Models [49.283527214211446]
補間情報基準(Interpolating Information Criterion)は,モデル選択に事前選択を自然に取り入れたモデル品質の尺度であることを示す。
我々の新しい情報基準は、モデルの事前の誤特定、幾何学的およびスペクトル的特性を考慮に入れており、既知の経験的および理論的挙動と数値的に一致している。
論文 参考訳(メタデータ) (2023-07-15T12:09:54Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation [24.65301562548798]
本研究では,因果推論におけるモデル選択の問題,特に条件付き平均処理効果(CATE)の推定について検討する。
本研究では,本研究で導入されたサロゲートモデル選択指標と,本研究で導入された新しい指標のベンチマークを行う。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z) - Selection of a representative sorting model in a preference
disaggregation setting: a review of existing procedures, new proposals, and
experimental comparison [4.447467536572626]
複数の基準のソートという文脈における選好の不合理性について考察する。
間接選好に適合するソートモデルの多重性を考えると、1つの代表モデルを選択すると、異なる方法でソートを行うことができる。
本稿では,厳密な代入規則を実践する3つの新しい手順を提案する。
論文 参考訳(メタデータ) (2022-08-30T02:01:35Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Learning to Select Base Classes for Few-shot Classification [96.92372639495551]
我々は、数ショットモデルの一般化性能を示す指標として、類似度比を用いる。
次に、類似度比に対する部分モジュラー最適化問題として基底クラス選択問題を定式化する。
論文 参考訳(メタデータ) (2020-04-01T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。