論文の概要: Evaluation of Thematic Coherence in Microblogs
- arxiv url: http://arxiv.org/abs/2106.15971v1
- Date: Wed, 30 Jun 2021 10:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:37:09.390924
- Title: Evaluation of Thematic Coherence in Microblogs
- Title(参考訳): マイクロブロッグにおけるテーマコヒーレンスの評価
- Authors: Iman Munire Bilal, Bo Wang, Maria Liakata, Rob Procter, Adam
Tsakalidis
- Abstract要約: 3つの異なるドメインと時間ウィンドウからマイクロブログクラスタのコーパスを作成し、テーマコヒーレンスを評価するタスクを定義する。
我々は、表面レベルメトリクス、トピックモデルコヒーレンスのためのメトリクス、テキスト生成メトリクスなど、さまざまなメトリクスについて検討する。
TGMは、時間窓の影響に敏感でないため、マイクロブログクラスタのテーマコヒーレンスを捉えるために考慮された他の指標よりも信頼性が高い。
- 参考スコア(独自算出の注目度): 12.905868226107582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting together microblogs representing opinions about the same topics
within the same timeframe is useful to a number of different tasks and
practitioners. A major question is how to evaluate the quality of such thematic
clusters. Here we create a corpus of microblog clusters from three different
domains and time windows and define the task of evaluating thematic coherence.
We provide annotation guidelines and human annotations of thematic coherence by
journalist experts. We subsequently investigate the efficacy of different
automated evaluation metrics for the task. We consider a range of metrics
including surface level metrics, ones for topic model coherence and text
generation metrics (TGMs). While surface level metrics perform well,
outperforming topic coherence metrics, they are not as consistent as TGMs. TGMs
are more reliable than all other metrics considered for capturing thematic
coherence in microblog clusters due to being less sensitive to the effect of
time windows.
- Abstract(参考訳): 同じ時間枠内で同じトピックについて意見を表すマイクロブログをまとめるのは、さまざまなタスクや実践者にとって有用です。
大きな疑問は、このようなテーマクラスタの品質を評価する方法である。
ここでは、3つの異なるドメインと時間ウィンドウからマイクロブログクラスタのコーパスを作成し、テーマコヒーレンスを評価するタスクを定義する。
専門家は,アノテーションガイドラインと主題コヒーレンスに関する人間的注釈を提示する。
その後、タスクの異なる自動評価指標の有効性について検討する。
我々は、表面レベルメトリクス、トピックモデルコヒーレンスのためのメトリクス、テキスト生成メトリクス(TGM)など、さまざまな指標を検討する。
表面レベルのメトリクスは、トピックコヒーレンスメトリクスよりもパフォーマンスが良いが、tgmほど一貫性がない。
TGMは、時間窓の影響に敏感でないため、マイクロブログクラスタのテーマコヒーレンスを捉えるために考慮された他の指標よりも信頼性が高い。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Pointwise Metrics for Clustering Evaluation [0.0]
本稿では、2つのクラスタリングの類似性を特徴付けるためのメトリクスの集合である、ポイントワイズクラスタリングメトリクスを定義する。
計量の定義は標準集合論の概念に基づいており、理解し易い。
メトリクスを個々のアイテム、クラスタ、任意のアイテムのスライス、全体的なクラスタリングに割り当てることが可能です。
論文 参考訳(メタデータ) (2024-05-16T19:49:35Z) - HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation [18.049566239050762]
優れた評価指標は、シミュレーション生成(SG)の研究を導くビーコンのようなものである
そこで我々は,SGタスクの総合的かつ自動評価システムであるHAを確立する。
私たちのメトリクスは、以前の自動メトリクスと比較して、各視点からの人間の評価と著しく相関しています。
論文 参考訳(メタデータ) (2023-06-13T06:06:01Z) - Contextualized Topic Coherence Metrics [6.630482733703617]
CTC(Contextualized Topic Coherence)と呼ばれる,標準的な話題評価にインスパイアされた手法を提案する。
我々は,6つのトピックモデルにおいて,他の5つの指標と比較してCTCを評価し,自動トピックコヒーレンス法よりも優れた結果を得た。
論文 参考訳(メタデータ) (2023-05-23T23:53:29Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - Global Explainability of BERT-Based Evaluation Metrics by Disentangling
along Linguistic Factors [14.238125731862658]
我々は意味論、構文学、形態学、語彙的重複を含む言語的要因に沿ってメートル法スコアをアンタングルする。
異なるメトリクスがすべての側面をある程度捉えていることを示すが、これらはすべてBLEUやROUGEと同じように、語彙重なりにかなり敏感である。
論文 参考訳(メタデータ) (2021-10-08T22:40:33Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。