論文の概要: Human-in-the-loop Evaluation for Early Misinformation Detection: A Case
Study of COVID-19 Treatments
- arxiv url: http://arxiv.org/abs/2212.09683v2
- Date: Wed, 3 May 2023 14:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 18:11:25.737561
- Title: Human-in-the-loop Evaluation for Early Misinformation Detection: A Case
Study of COVID-19 Treatments
- Title(参考訳): 早期誤情報検出のためのループ内ヒト評価 : COVID-19治療の事例
- Authors: Ethan Mendes, Yang Chen, Alan Ritter, Wei Xu
- Abstract要約: 本稿では,新たな誤情報主張を事実チェックし,それをサポートするソーシャルメディアメッセージを特定するための,ループ内人間評価フレームワークを提案する。
提案手法は,レビューのために集計・ランク付けされたチェック価値のあるクレームを抽出する。
人間のファクトチェッカーは、Twitterの新型コロナウイルスの誤報に関するポリシーに違反している1時間に124のツイートを識別できる。
- 参考スコア(独自算出の注目度): 19.954539961446496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a human-in-the-loop evaluation framework for fact-checking novel
misinformation claims and identifying social media messages that support them.
Our approach extracts check-worthy claims, which are aggregated and ranked for
review. Stance classifiers are then used to identify tweets supporting novel
misinformation claims, which are further reviewed to determine whether they
violate relevant policies. To demonstrate the feasibility of our approach, we
develop a baseline system based on modern NLP methods for human-in-the-loop
fact-checking in the domain of COVID-19 treatments. Using our baseline system,
we show that human fact-checkers can identify 124 tweets per hour that violate
Twitter's policies on COVID-19 misinformation. We will make our code, data,
baseline models, and detailed annotation guidelines available to support the
evaluation of human-in-the-loop systems that identify novel misinformation
directly from raw user-generated content.
- Abstract(参考訳): 本稿では,新たな誤情報主張を事実チェックし,それをサポートするソーシャルメディアメッセージを特定するための,ループ内人間評価フレームワークを提案する。
当社のアプローチでは,チェック価値の高いクレームを抽出し,レビュー用にランク付けする。
スタンス分類器は、新しい誤った情報クレームをサポートするツイートを識別するために使用され、関連するポリシーに違反しているかどうかを判断するためにさらにレビューされる。
提案手法の有効性を実証するため,HIV治療領域におけるヒト・イン・ザ・ループファクトチェックのための最新のNLP法に基づくベースラインシステムを開発した。
当社のベースラインシステムを用いて、人間のファクトチェッカーがcovid-19の誤った情報に対するtwitterのポリシーに違反する1時間に114ツイートを識別できることを示しました。
我々は、コード、データ、ベースラインモデル、詳細なガイドラインを公開し、生のユーザ生成コンテンツから直接、新しい誤情報を識別するループシステムの評価を支援する。
関連論文リスト
- Defining and Detecting Vulnerability in Human Evaluation Guidelines: A Preliminary Study Towards Reliable NLG Evaluation [43.21663407946184]
トップコンファレンスでの人間評価に関する最近の論文の29.84%のみが評価ガイドラインを公表している。
既存の論文から抽出したガイドラインのアノテーションと,大規模言語モデルを用いて作成したガイドラインのアノテーションを収集する。
8つの脆弱性の分類を導入し,評価ガイドライン作成の原則を定式化する。
論文 参考訳(メタデータ) (2024-06-12T06:59:31Z) - Towards Reliable and Factual Response Generation: Detecting Unanswerable
Questions in Information-Seeking Conversations [16.99952884041096]
生成的AIモデルは、そのようなシステムに対するユーザの信頼を損なう可能性のある幻覚の課題に直面します。
本稿では,まずコーパス内の関連するパスを識別し,最後にシステム応答にまとめる2段階のプロセスとして,会話情報探索の問題にアプローチする。
具体的には,文レベル分類器を用いて解答の有無を判定し,これらの予測を文レベルに集約し,最後に最終解答可能性推定値に到達する。
論文 参考訳(メタデータ) (2024-01-21T10:15:36Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Towards a Comprehensive Human-Centred Evaluation Framework for
Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。
我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文 参考訳(メタデータ) (2023-07-31T09:20:16Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Counterfactually Evaluating Explanations in Recommender Systems [14.938252589829673]
人間の関与なしに計算できるオフライン評価手法を提案する。
従来の手法と比較して,本手法は実際の人間の判断とより相関した評価スコアを得られることを示す。
論文 参考訳(メタデータ) (2022-03-02T18:55:29Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。