論文の概要: When Numbers Tell Half the Story: Human-Metric Alignment in Topic Model Evaluation
- arxiv url: http://arxiv.org/abs/2603.01945v1
- Date: Mon, 02 Mar 2026 14:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.921913
- Title: When Numbers Tell Half the Story: Human-Metric Alignment in Topic Model Evaluation
- Title(参考訳): ストーリーの半分を数字が示すとき:トピックモデル評価における人間と機械のアライメント
- Authors: Thibault Prouteau, Francis Lareau, Nicolas Dugué, Jean-Charles Lamirel, Christophe Malaterre,
- Abstract要約: 本稿では,話題間の相違性を評価する新しい人間評価課題である,話題語混合(TWM)を紹介する。
我々は,学術出版物の分野固有の哲学のコーパスから,約4,000のアノテーションに基づいて,自動メトリクスと人的評価手法を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic models uncover latent thematic structures in text corpora, yet evaluating their quality remains challenging, particularly in specialized domains. Existing methods often rely on automated metrics like topic coherence and diversity, which may not fully align with human judgment. Human evaluation tasks, such as word intrusion, provide valuable insights but are costly and primarily validated on general-domain corpora. This paper introduces Topic Word Mixing (TWM), a novel human evaluation task assessing inter-topic distinctness by testing whether annotators can distinguish between word sets from single or mixed topics. TWM complements word intrusion's focus on intra-topic coherence and provides a human-grounded counterpart to diversity metrics. We evaluate six topic models - both statistical and embedding-based (LDA, NMF, Top2Vec, BERTopic, CFMF, CFMF-emb) - comparing automated metrics with human evaluation methods based on nearly 4,000 annotations from a domain-specific corpus of philosophy of science publications. Our findings reveal that word intrusion and coherence metrics do not always align, particularly in specialized domains, and that TWM captures human-perceived distinctness while appearing to align with diversity metrics. We release the annotated dataset and task generation code. This work highlights the need for evaluation frameworks bridging automated and human assessments, particularly for domain-specific corpora.
- Abstract(参考訳): トピックモデルはテキストコーパスの潜在テーマ構造を明らかにするが、その品質を評価することは困難である。
既存の手法は、トピックコヒーレンスや多様性といった、人間の判断と完全に一致しない自動メトリクスに依存していることが多い。
単語の侵入のような人間の評価タスクは、価値ある洞察を提供するが、コストが高く、主に一般ドメインのコーパスで検証される。
本稿では,話題間の相違性を評価する新しいヒューマン評価タスクであるトピック語混合(TWM)を紹介する。
TWMは、単語の侵入がトピック内コヒーレンスに重点を置いていることを補完し、多様性のメトリクスと人間による接地を提供する。
統計的および埋め込みに基づく6つのトピックモデル(LDA, NMF, Top2Vec, BERTopic, CFMF, CFMF-emb)を評価する。
以上の結果から,単語の侵入とコヒーレンス指標は,特に専門領域において必ずしも一致しないことが明らかとなった。
アノテーション付きデータセットとタスク生成コードをリリースする。
この作業は、特にドメイン固有のコーパスにおいて、自動および人的評価をブリッジする評価フレームワークの必要性を強調している。
関連論文リスト
- Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [118.44328586173556]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。
Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。
我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文 参考訳(メタデータ) (2025-09-30T12:20:57Z) - Understanding the Process of Human-AI Value Alignment [1.6799377888527687]
計算機科学研究における価値アライメントは、人工知能を人間と整合させる過程を指すことが多いが、そのフレーズの使い方は正確性に欠けることが多い。
我々は、人工知能における価値アライメントの理解を促進するために、体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2025-09-17T09:39:38Z) - Towards Multi-dimensional Evaluation of LLM Summarization across Domains and Languages [17.028968054304947]
MSumBenchは、英語と中国語の要約の多次元多領域評価である。
8つの現代的な要約モデルを評価することにより、ドメインや言語間で異なるパフォーマンスパターンが見つかる。
論文 参考訳(メタデータ) (2025-05-31T13:12:35Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - Towards Automatic Evaluation for Image Transcreation [52.71090829502756]
本稿では,機械翻訳(MT)メトリクスにインスパイアされた自動評価指標群を提案する。
画像トランスクリエーションの3つの重要な側面として,文化的関連性,意味的等価性,視覚的類似性を挙げる。
この結果から,視覚エンコーダの表現は視覚的類似度を測定するのに有効であるのに対し,プロプライエタリなVLMは文化的関連性と意味的等価性を最もよく認識していることがわかった。
論文 参考訳(メタデータ) (2024-12-18T10:55:58Z) - Automated Metrics for Medical Multi-Document Summarization Disagree with
Human Evaluations [22.563596069176047]
自動要約評価指標が生成した要約の語彙的特徴とどのように相関するかを分析する。
自動測定を行うだけでなく、人間によって評価された品質の側面を捉えることができず、多くの場合、これらの測定によって生成されるシステムランキングは、人間のアノテーションによるランキングと反相関している。
論文 参考訳(メタデータ) (2023-05-23T05:00:59Z) - NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist [20.448405494617397]
Perplexity、BLEU、BERTScoreといったタスクに依存しないメトリクスは費用対効果が高く、多様なNLGタスクに適応できる。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
テキスト要約および制御生成タスクにおいて,システムレベルの性能を識別する上で,自動メトリクスが人間よりも優れたガイダンスを提供することを示す。
論文 参考訳(メタデータ) (2023-05-15T11:51:55Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文 参考訳(メタデータ) (2021-09-14T01:00:42Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。