論文の概要: LLM Reading Tea Leaves: Automatically Evaluating Topic Models with Large Language Models
- arxiv url: http://arxiv.org/abs/2406.09008v1
- Date: Thu, 13 Jun 2024 11:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:24:52.055770
- Title: LLM Reading Tea Leaves: Automatically Evaluating Topic Models with Large Language Models
- Title(参考訳): LLMリーディングティーリーズ:大規模言語モデルによるトピックモデルの自動評価
- Authors: Xiaohao Yang, He Zhao, Dinh Phung, Wray Buntine, Lan Du,
- Abstract要約: トピックモデリングのための新しい評価手法であるWALM(Words Agreement with Language Model)を提案する。
異なる種類のトピックモデルを含む広範な実験により、WALMは人間の判断に合致することを示した。
- 参考スコア(独自算出の注目度): 12.500091504010067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic modeling has been a widely used tool for unsupervised text analysis. However, comprehensive evaluations of a topic model remain challenging. Existing evaluation methods are either less comparable across different models (e.g., perplexity) or focus on only one specific aspect of a model (e.g., topic quality or document representation quality) at a time, which is insufficient to reflect the overall model performance. In this paper, we propose WALM (Words Agreement with Language Model), a new evaluation method for topic modeling that comprehensively considers the semantic quality of document representations and topics in a joint manner, leveraging the power of large language models (LLMs). With extensive experiments involving different types of topic models, WALM is shown to align with human judgment and can serve as a complementary evaluation method to the existing ones, bringing a new perspective to topic modeling. Our software package will be available at https://github.com/Xiaohao-Yang/Topic_Model_Evaluation, which can be integrated with many widely used topic models.
- Abstract(参考訳): トピックモデリングは教師なしテキスト分析に広く使われているツールである。
しかし、トピックモデルの包括的な評価は依然として困難である。
既存の評価手法は、異なるモデル(例えば、パープレキシティ)で比較できないか、モデルの特定の1つの側面(例えば、トピックの品質や文書表現の品質)だけに焦点を当てているか、モデル全体のパフォーマンスを反映するには不十分である。
本稿では,大規模言語モデル(LLM)のパワーを活用し,文書表現やトピックの意味的品質を協調的に考慮したトピックモデリングの新しい評価手法であるWALM(Words Agreement with Language Model)を提案する。
異なる種類のトピックモデルを含む広範な実験により、WALMは人間の判断と一致し、既存のモデルと補完的な評価手法として機能し、トピックモデリングに新たな視点をもたらすことができる。
私たちのソフトウェアパッケージはhttps://github.com/Xiaohao-Yang/Topic_Model_Evaluationで公開されます。
関連論文リスト
- VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Investigating the Impact of Text Summarization on Topic Modeling [13.581341206178525]
本稿では,事前学習型大言語モデル(LLM)を用いてトピックモデリング性能をさらに向上する手法を提案する。
トピックモデリングへの影響を比較するために、異なる長さの要約を生成するために、ショットプロンプトはほとんど使われない。
提案手法は,従来のモデルと比較して,トピックの多様性とコヒーレンス値に比較して優れている。
論文 参考訳(メタデータ) (2024-09-28T19:45:45Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - GINopic: Topic Modeling with Graph Isomorphism Network [0.8962460460173959]
本稿では,グラフ同型ネットワークに基づく話題モデリングフレームワークGINopicを紹介し,単語間の相関関係を捉える。
本稿では,既存のトピックモデルと比較してGINopicの有効性を実証し,トピックモデリングの進歩の可能性を明らかにする。
論文 参考訳(メタデータ) (2024-04-02T17:18:48Z) - Improving the TENOR of Labeling: Re-evaluating Topic Models for Content
Analysis [5.757610495733924]
対話型タスクベース設定において,ニューラル,教師付き,古典的なトピックモデルの最初の評価を行う。
現在の自動メトリクスは、トピックモデリング機能の完全な図を提供していないことを示す。
論文 参考訳(メタデータ) (2024-01-29T17:54:04Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。