論文の概要: Toward Purpose-oriented Topic Model Evaluation enabled by Large Language Models
- arxiv url: http://arxiv.org/abs/2509.07142v1
- Date: Mon, 08 Sep 2025 18:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.087088
- Title: Toward Purpose-oriented Topic Model Evaluation enabled by Large Language Models
- Title(参考訳): 大規模言語モデルによる目的指向トピックモデル評価に向けて
- Authors: Zhiyin Tan, Jennifer D'Souza,
- Abstract要約: トピック品質の4つの重要な側面にまたがる9つのLarge Language Models(LLM)ベースのメトリクスを利用する目的指向評価フレームワークを導入する。
このフレームワークは、敵対的およびサンプリングベースのプロトコルを通じて検証され、ニュース記事、学術出版物、ソーシャルメディア投稿にまたがるデータセットに適用される。
- 参考スコア(独自算出の注目度): 0.8193467416247519
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study presents a framework for automated evaluation of dynamically evolving topic models using Large Language Models (LLMs). Topic modeling is essential for organizing and retrieving scholarly content in digital library systems, helping users navigate complex and evolving knowledge domains. However, widely used automated metrics, such as coherence and diversity, often capture only narrow statistical patterns and fail to explain semantic failures in practice. We introduce a purpose-oriented evaluation framework that employs nine LLM-based metrics spanning four key dimensions of topic quality: lexical validity, intra-topic semantic soundness, inter-topic structural soundness, and document-topic alignment soundness. The framework is validated through adversarial and sampling-based protocols, and is applied across datasets spanning news articles, scholarly publications, and social media posts, as well as multiple topic modeling methods and open-source LLMs. Our analysis shows that LLM-based metrics provide interpretable, robust, and task-relevant assessments, uncovering critical weaknesses in topic models such as redundancy and semantic drift, which are often missed by traditional metrics. These results support the development of scalable, fine-grained evaluation tools for maintaining topic relevance in dynamic datasets. All code and data supporting this work are accessible at https://github.com/zhiyintan/topic-model-LLMjudgment.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) を用いた動的に進化するトピックモデルの自動評価のためのフレームワークを提案する。
トピックモデリングは、デジタル図書館システムにおける学術的コンテンツの整理と検索に不可欠であり、ユーザーは複雑な知識ドメインをナビゲートし、進化する知識ドメインをナビゲートするのに役立つ。
しかしながら、コヒーレンスや多様性といった広く使われている自動メトリクスは、狭い統計パターンのみをキャプチャし、実際に意味的な失敗を説明するのに失敗することが多い。
トピック品質の4つの重要な側面である語彙妥当性,トピック内意味音性,トピック間構造音性,ドキュメント-トピックアライメント音性にまたがる9つのLCMに基づく目的指向評価フレームワークを提案する。
このフレームワークは、敵対的およびサンプリングベースのプロトコルを通じて検証され、ニュース記事、学術出版物、ソーシャルメディア投稿にまたがるデータセット、および複数のトピックモデリング手法とオープンソースのLCMに適用される。
分析の結果,従来の指標では欠落することが多い冗長性やセマンティックドリフトといったトピックモデルにおける重要な弱点を明らかにするため,LLMに基づくメトリクスが解釈可能,堅牢,タスク関連アセスメントを提供することがわかった。
これらの結果は、動的データセットにおけるトピック関連性を維持するためのスケーラブルできめ細かい評価ツールの開発を支援する。
この作業をサポートするすべてのコードとデータは、https://github.com/zhiyintan/topic-model-LLMjudgmentでアクセスできる。
関連論文リスト
- Beyond Next Word Prediction: Developing Comprehensive Evaluation Frameworks for measuring LLM performance on real world applications [3.686808512438363]
大規模言語モデル (LLM) には多くのユースケースがあり、すでにかなりの数の企業採用を獲得している。
本稿では,従来のゲームおよびツールベースのアーキテクチャに基づく,より包括的な評価フレームワークの基礎を提供する。
論文 参考訳(メタデータ) (2025-03-05T06:44:38Z) - Retrieval Augmented Generation for Topic Modeling in Organizational Research: An Introduction with Empirical Demonstration [0.0]
本稿では,LLMを用いたトピックモデリング手法として,エージェント検索拡張生成(Agentic RAG)を提案する。
1) LLM の事前訓練された知識を超えた外部データへの自動アクセスを可能にする検索,(2) LLM の機能を利用してテキスト合成を行う生成,(3) エージェント駆動学習, 反復的に検索とクエリの定式化を行う。
本研究は,本手法がより効率的で解釈可能であり,同時に,従来の機械学習手法と比較して信頼性と妥当性が向上することを示した。
論文 参考訳(メタデータ) (2025-02-28T11:25:11Z) - Bridging the Evaluation Gap: Leveraging Large Language Models for Topic Model Evaluation [0.0]
本研究では,Large Language Models (LLMs) を用いた科学文献における動的に進化するトピックの自動評価のための枠組みを提案する。
提案手法は,専門家のアノテータや狭義の統計指標に大きく依存することなく,コヒーレンス,反復性,多様性,トピック文書のアライメントといった重要な品質次元を測定するためにLLMを利用する。
論文 参考訳(メタデータ) (2025-02-11T08:23:56Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Towards More Effective Table-to-Text Generation: Assessing In-Context Learning and Self-Evaluation with Open-Source Models [0.0]
本研究では,ベンチマークデータセット間の言語モデル(LM)における様々なコンテキスト内学習戦略の有効性について検討する。
我々は、チェーンオブ思考推論を用いた大規模言語モデル(LLM)の自己評価アプローチを採用し、BERTScoreのような人力対応メトリクスとの相関性を評価する。
本研究はテーブル・ツー・テキスト・ジェネレーションの改善における実例の顕著な影響を浮き彫りにし, LLM の自己評価には可能性があるが, 人間の判断と現在の整合性は向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-15T09:19:42Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。