論文の概要: Measuring What Counts: The case of Rumour Stance Classification
- arxiv url: http://arxiv.org/abs/2010.04532v1
- Date: Fri, 9 Oct 2020 12:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:19:54.474339
- Title: Measuring What Counts: The case of Rumour Stance Classification
- Title(参考訳): 数を計測する: 噂のスタンス分類の場合
- Authors: Carolina Scarton and Diego F. Silva and Kalina Bontcheva
- Abstract要約: スタンス分類は、ユーザーがオンラインの噂を信じるかどうかを理解するための強力なツールとなる。
2つのRumourEvalタスクに課されたシステムを再評価し、広く採用されている2つのメトリクスが4つのクラス不均衡タスクに対して堅牢でないことを示す。
噂の姿勢検出のための新しい評価指標を提案する。
- 参考スコア(独自算出の注目度): 4.778751177783165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stance classification can be a powerful tool for understanding whether and
which users believe in online rumours. The task aims to automatically predict
the stance of replies towards a given rumour, namely support, deny, question,
or comment. Numerous methods have been proposed and their performance compared
in the RumourEval shared tasks in 2017 and 2019. Results demonstrated that this
is a challenging problem since naturally occurring rumour stance data is highly
imbalanced. This paper specifically questions the evaluation metrics used in
these shared tasks. We re-evaluate the systems submitted to the two RumourEval
tasks and show that the two widely adopted metrics -- accuracy and macro-F1 --
are not robust for the four-class imbalanced task of rumour stance
classification, as they wrongly favour systems with highly skewed accuracy
towards the majority class. To overcome this problem, we propose new evaluation
metrics for rumour stance detection. These are not only robust to imbalanced
data but also score higher systems that are capable of recognising the two most
informative minority classes (support and deny).
- Abstract(参考訳): スタンス分類は、ユーザーがオンラインの噂を信じるかどうかを理解する強力なツールとなる。
このタスクは、ある噂に対する回答のスタンス、すなわちサポート、否定、質問、コメントを自動的に予測することを目的としている。
多数の方法が提案され、2017年と2019年にrumoureval共有タスクで比較された。
その結果、自然に発生する噂の姿勢データが極めて不均衡であるため、これは難しい問題であることがわかった。
本稿では,これらの共有タスクで使用される評価指標について考察する。
我々は,2つのRumourEvalタスクに課されたシステムを再評価し,2つの広く採用されているメトリクス(精度とマクロF1)が,大半に対して高度に歪んだ精度のシステムを好むため,噂定位分類の4クラス不均衡タスクに対して堅牢ではないことを示す。
この問題を克服するために,噂の姿勢検出のための新しい評価指標を提案する。
これらは不均衡なデータに対して堅牢なだけでなく、最も有意義な2つのマイノリティクラス(サポートと否定)を認識できるより高いシステムもスコア付けする。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Rumour Evaluation with Very Large Language Models [2.6861033447765217]
本研究は,誤報に対処するために,プロンプトに依存しない大規模言語モデルの進歩を活用することを提案する。
我々は2つのRumourEvalサブタスクを拡張するために2つのプロンプトベースのLLM変種を用いる。
精度予測のために、GPT変種ごとに3つの分類スキームが実験され、各スキームはゼロ、ワンショット、および少数ショット設定で試験される。
スタンス分類では、プロンプトベースのアパッチは先行結果に匹敵する性能を示し、微調整法に比較して改善はない。
論文 参考訳(メタデータ) (2024-04-11T19:38:22Z) - Correcting Flaws in Common Disentanglement Metrics [44.937838134027714]
本稿では,既存のメトリクスの2つの欠点を特定する。これは,まだ絡み合っているモデルに高いスコアを割り当てることができることを意味する。
次に、構成一般化の課題を考える。
従来の研究とは異なり、我々はこれを分類問題として扱い、エンコーダの絡み合う能力を測定するために使用することができる。
このタスクのパフォーマンスは, (a) 一般には非常に貧弱であり, (b) ほとんどの不整合度と相関し, (c) 新たに提案した指標と最も強く相関していることを示す。
論文 参考訳(メタデータ) (2023-04-05T09:43:58Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - A Weakly Supervised Propagation Model for Rumor Verification and Stance
Detection with Multiple Instance Learning [8.659605626407245]
本稿では,2つの木構造型弱教師付きフレームワークについて,噂やスタンスを共同で分類する。
クレームレベルの噂検出とポストレベルのスタンス分類の両モデルについて,最先端手法との比較を行った。
論文 参考訳(メタデータ) (2022-04-06T07:07:06Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z) - Binary Classification: Counterbalancing Class Imbalance by Applying
Regression Models in Combination with One-Sided Label Shifts [0.4970364068620607]
クラス不均衡の問題に対処する新しい手法を提案する。
我々は、対応する回帰タスクが均衡するように、負と正の目標ラベルのセットを生成する。
我々は,複数の公開データセットに対するアプローチを評価し,提案手法を最もポピュラーなオーバーサンプリング手法と比較した。
論文 参考訳(メタデータ) (2020-11-30T13:24:47Z) - Exploiting stance hierarchies for cost-sensitive stance detection of Web
documents [24.898077978955406]
スタンス検出は、請求書に対する文書の位置(スタンス)を特定することを目的としている。
本稿では,カスケードバイナリ分類器のモジュールパイプラインを提案する。
マイノリティクラスの誤分類コストを強調するニューラルネットワークと従来の分類モデルを組み合わせることで、我々のアプローチを実装します。
論文 参考訳(メタデータ) (2020-07-29T21:40:01Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。