論文の概要: Evaluation of Thematic Coherence in Microblogs
- arxiv url: http://arxiv.org/abs/2106.15971v1
- Date: Wed, 30 Jun 2021 10:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:37:09.390924
- Title: Evaluation of Thematic Coherence in Microblogs
- Title(参考訳): マイクロブロッグにおけるテーマコヒーレンスの評価
- Authors: Iman Munire Bilal, Bo Wang, Maria Liakata, Rob Procter, Adam
Tsakalidis
- Abstract要約: 3つの異なるドメインと時間ウィンドウからマイクロブログクラスタのコーパスを作成し、テーマコヒーレンスを評価するタスクを定義する。
我々は、表面レベルメトリクス、トピックモデルコヒーレンスのためのメトリクス、テキスト生成メトリクスなど、さまざまなメトリクスについて検討する。
TGMは、時間窓の影響に敏感でないため、マイクロブログクラスタのテーマコヒーレンスを捉えるために考慮された他の指標よりも信頼性が高い。
- 参考スコア(独自算出の注目度): 12.905868226107582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting together microblogs representing opinions about the same topics
within the same timeframe is useful to a number of different tasks and
practitioners. A major question is how to evaluate the quality of such thematic
clusters. Here we create a corpus of microblog clusters from three different
domains and time windows and define the task of evaluating thematic coherence.
We provide annotation guidelines and human annotations of thematic coherence by
journalist experts. We subsequently investigate the efficacy of different
automated evaluation metrics for the task. We consider a range of metrics
including surface level metrics, ones for topic model coherence and text
generation metrics (TGMs). While surface level metrics perform well,
outperforming topic coherence metrics, they are not as consistent as TGMs. TGMs
are more reliable than all other metrics considered for capturing thematic
coherence in microblog clusters due to being less sensitive to the effect of
time windows.
- Abstract(参考訳): 同じ時間枠内で同じトピックについて意見を表すマイクロブログをまとめるのは、さまざまなタスクや実践者にとって有用です。
大きな疑問は、このようなテーマクラスタの品質を評価する方法である。
ここでは、3つの異なるドメインと時間ウィンドウからマイクロブログクラスタのコーパスを作成し、テーマコヒーレンスを評価するタスクを定義する。
専門家は,アノテーションガイドラインと主題コヒーレンスに関する人間的注釈を提示する。
その後、タスクの異なる自動評価指標の有効性について検討する。
我々は、表面レベルメトリクス、トピックモデルコヒーレンスのためのメトリクス、テキスト生成メトリクス(TGM)など、さまざまな指標を検討する。
表面レベルのメトリクスは、トピックコヒーレンスメトリクスよりもパフォーマンスが良いが、tgmほど一貫性がない。
TGMは、時間窓の影響に敏感でないため、マイクロブログクラスタのテーマコヒーレンスを捉えるために考慮された他の指標よりも信頼性が高い。
関連論文リスト
- HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation [18.049566239050762]
優れた評価指標は、シミュレーション生成(SG)の研究を導くビーコンのようなものである
そこで我々は,SGタスクの総合的かつ自動評価システムであるHAを確立する。
私たちのメトリクスは、以前の自動メトリクスと比較して、各視点からの人間の評価と著しく相関しています。
論文 参考訳(メタデータ) (2023-06-13T06:06:01Z) - An Investigation of Evaluation Metrics for Automated Medical Note
Generation [5.094623170336122]
医療談話から臨床メモの自動生成のための評価方法と指標について検討した。
自動計測値と手動判定値の相関性を検討するために,システムと参照事実を比較して,自動メモ・要約の評価を行った。
論文 参考訳(メタデータ) (2023-05-27T04:34:58Z) - Contextualized Topic Coherence Metrics [6.630482733703617]
CTC(Contextualized Topic Coherence)と呼ばれる,標準的な話題評価にインスパイアされた手法を提案する。
我々は,6つのトピックモデルにおいて,他の5つの指標と比較してCTCを評価し,自動トピックコヒーレンス法よりも優れた結果を得た。
論文 参考訳(メタデータ) (2023-05-23T23:53:29Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - Global Explainability of BERT-Based Evaluation Metrics by Disentangling
along Linguistic Factors [14.238125731862658]
我々は意味論、構文学、形態学、語彙的重複を含む言語的要因に沿ってメートル法スコアをアンタングルする。
異なるメトリクスがすべての側面をある程度捉えていることを示すが、これらはすべてBLEUやROUGEと同じように、語彙重なりにかなり敏感である。
論文 参考訳(メタデータ) (2021-10-08T22:40:33Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。