論文の概要: Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence
- arxiv url: http://arxiv.org/abs/2107.02173v1
- Date: Mon, 5 Jul 2021 17:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:20:12.861271
- Title: Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence
- Title(参考訳): トピックモデルの自動評価は壊れているか?
コヒーレンスの不整合
- Authors: Alexander Hoyle, Pranav Goel, Denis Peskov, Andrew Hian-Cheong, Jordan
Boyd-Graber, Philip Resnik
- Abstract要約: トピックモデル評価における標準化のギャップと検証のギャップについて考察する。
これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
- 参考スコア(独自算出の注目度): 62.826466543958624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic model evaluation, like evaluation of other unsupervised methods, can be
contentious. However, the field has coalesced around automated estimates of
topic coherence, which rely on the frequency of word co-occurrences in a
reference corpus. Recent models relying on neural components surpass classical
topic models according to these metrics. At the same time, unlike classical
models, the practice of neural topic model evaluation suffers from a validation
gap: automatic coherence for neural models has not been validated using human
experimentation. In addition, as we show via a meta-analysis of topic modeling
literature, there is a substantial standardization gap in the use of automated
topic modeling benchmarks. We address both the standardization gap and the
validation gap. Using two of the most widely used topic model evaluation
datasets, we assess a dominant classical model and two state-of-the-art neural
models in a systematic, clearly documented, reproducible way. We use automatic
coherence along with the two most widely accepted human judgment tasks, namely,
topic rating and word intrusion. Automated evaluation will declare one model
significantly different from another when corresponding human evaluations do
not, calling into question the validity of fully automatic evaluations
independent of human judgments.
- Abstract(参考訳): トピックモデルの評価は、他の教師なしメソッドの評価と同様に、議論の余地がある。
しかし、この分野は、参照コーパスにおける単語共起頻度に依存するトピックコヒーレンスの自動推定を中心に融合してきた。
これらの指標によると、最近のモデルは古典的なトピックモデルを超えている。
同時に、古典的なモデルとは異なり、ニューラルネットワークのトピックモデル評価のプラクティスは検証のギャップに苦しめられている。
さらに、トピックモデリング文献のメタ分析を通して示すように、自動トピックモデリングベンチマークの使用にはかなりの標準化のギャップがある。
標準化のギャップと検証のギャップに対処する。
最も広く使われているトピックモデル評価データセットの2つを用いて、支配的な古典的モデルと最先端の2つのニューラルモデルを、体系的で明確に文書化され再現可能な方法で評価する。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
自動評価は、対応する人間の評価がなければ、あるモデルと大きく異なることを宣言し、人間の判断とは無関係に完全な自動評価の有効性を疑問視する。
関連論文リスト
- Improving the TENOR of Labeling: Re-evaluating Topic Models for Content
Analysis [5.757610495733924]
対話型タスクベース設定において,ニューラル,教師付き,古典的なトピックモデルの最初の評価を行う。
現在の自動メトリクスは、トピックモデリング機能の完全な図を提供していないことを示す。
論文 参考訳(メタデータ) (2024-01-29T17:54:04Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Incorporating Casual Analysis into Diversified and Logical Response
Generation [14.4586344491264]
条件変分オートエンコーダ(CVAE)モデルは、従来のSeq2Seqモデルよりも多様な応答を生成することができる。
本稿では,メディエータが関連する情報を保持することを予測し,メディエータを自動回帰的に生成プロセスに組み込むことを提案する。
論文 参考訳(メタデータ) (2022-09-20T05:51:11Z) - Have you tried Neural Topic Models? Comparative Analysis of Neural and
Non-Neural Topic Models with Application to COVID-19 Twitter Data [11.199249808462458]
我々は、最先端のニューラルモデルと非ニューラルトピックモデルの比較研究を行う。
ニューラルトピックモデルは、標準評価基準において従来のトピックよりも優れていることを示す。
また,モード崩壊問題に対処するために,ニューラルトピックモデルの新しい正規化項を提案する。
論文 参考訳(メタデータ) (2021-05-21T07:24:09Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。