論文の概要: Overview of the CLEF-2019 CheckThat!: Automatic Identification and
Verification of Claims
- arxiv url: http://arxiv.org/abs/2109.15118v1
- Date: Sat, 25 Sep 2021 16:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-03 10:43:11.778971
- Title: Overview of the CLEF-2019 CheckThat!: Automatic Identification and
Verification of Claims
- Title(参考訳): CLEF-2019 CheckThat の概要
請求項の自動識別と検証
- Authors: Tamer Elsayed, Preslav Nakov, Alberto Barr\'on-Cede\~no, Maram
Hasanain, Reem Suwaileh, Giovanni Da San Martino, Pepa Atanasova
- Abstract要約: CheckThat!ラボでは、英語とアラビア語の2つの異なる言語で2つのタスクをこなした。
Task 1の最も成功したアプローチは、さまざまなニューラルネットワークとロジスティック回帰を使用した。
ラーニング・トゥ・ランクは、サブタスクAの最高スコアランで使用された。
- 参考スコア(独自算出の注目度): 26.96108180116284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an overview of the second edition of the CheckThat! Lab at CLEF
2019. The lab featured two tasks in two different languages: English and
Arabic. Task 1 (English) challenged the participating systems to predict which
claims in a political debate or speech should be prioritized for fact-checking.
Task 2 (Arabic) asked to (A) rank a given set of Web pages with respect to a
check-worthy claim based on their usefulness for fact-checking that claim, (B)
classify these same Web pages according to their degree of usefulness for
fact-checking the target claim, (C) identify useful passages from these pages,
and (D) use the useful pages to predict the claim's factuality. CheckThat!
provided a full evaluation framework, consisting of data in English (derived
from fact-checking sources) and Arabic (gathered and annotated from scratch)
and evaluation based on mean average precision (MAP) and normalized discounted
cumulative gain (nDCG) for ranking, and F1 for classification. A total of 47
teams registered to participate in this lab, and fourteen of them actually
submitted runs (compared to nine last year). The evaluation results show that
the most successful approaches to Task 1 used various neural networks and
logistic regression. As for Task 2, learning-to-rank was used by the highest
scoring runs for subtask A, while different classifiers were used in the other
subtasks. We release to the research community all datasets from the lab as
well as the evaluation scripts, which should enable further research in the
important tasks of check-worthiness estimation and automatic claim
verification.
- Abstract(参考訳): 以下は、CheckThatの第2版の概要である。
CLEF 2019に参加。
実験室は英語とアラビア語の2つの異なる言語で2つのタスクをこなした。
タスク1(英: Task 1)は、政治討論や言論のどの主張が事実確認に優先されるべきかを予測するために参加するシステムに挑戦する。
タスク2(アラビア語)は、(a)そのクレームの事実チェックの有用性に基づいて、チェック価値の高いクレームについて、あるwebページの集合をランク付けするよう求め、(b)これらの同じwebページを、そのクレームを事実チェックする有用度に応じて分類し、(c)これらのページから有用な節を識別し、(d)クレームの事実性を予測するために有用ページを使用する。
CheckThat!は、英語のデータ(ファクトチェックソースから)とアラビア語(スクラッチから収集、注釈付け)からなる完全な評価フレームワークを提供し、平均精度(MAP)と正規化割引累積ゲイン(nDCG)に基づく評価と分類のためのF1を提供する。
このラボには計47チームが登録され、そのうち14チームが実際に申請した(昨年は9チームだった)。
評価の結果,タスク1の最も成功したアプローチは,様々なニューラルネットワークとロジスティック回帰を用いた。
第2タスクについては、Aサブタスクの最高スコアランで学習 to ランクが使用され、他のサブタスクでは異なる分類器が使用された。
我々は,研究室から得られたすべてのデータセットと評価スクリプトを研究コミュニティにリリースし,検査責任評価と自動クレーム検証の重要なタスクについて,さらなる研究を可能にする。
関連論文リスト
- Mind the Prompt: A Novel Benchmark for Prompt-based Class-Agnostic Counting [8.000723123087473]
CAC(Class-Agnostic counting)は、コンピュータビジョンにおける最近の課題であり、モデルトレーニング中に見たことのない任意のオブジェクトクラスのインスタンス数を推定することを目的としている。
Prompt-Aware Countingベンチマークを導入する。このベンチマークは2つのターゲットテストで構成されており、それぞれに適切な評価指標が伴っている。
論文 参考訳(メタデータ) (2024-09-24T10:35:42Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Fraunhofer SIT at CheckThat! 2023: Tackling Classification Uncertainty
Using Model Souping on the Example of Check-Worthiness Classification [0.0]
本稿では,Fraunhofer SITチームが開発したCLEF-2023 CheckThat! Lab Task 1B for Englishについて述べる。
政治的議論のテキストスニペットが与えられた場合、このタスクの目的は、チェックしやすさを評価すべきかどうかを判断することである。
論文 参考訳(メタデータ) (2023-07-03T09:27:46Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - UU-Tax at SemEval-2022 Task 3: Improving the generalizability of
language models for taxonomy classification through data augmentation [0.0]
本稿では,SemEval-2022 Task 3 PreTENS: Presuposed Taxonomies Evaluation Neural Network Semanticsについて述べる。
タスクの目標は、文に含まれる名詞対の間の分類学的関係によって、ある文が受け入れられているか否かを識別することである。
より優れた分類のための言語モデルの堅牢性と一般化性を高める効果的な方法を提案する。
論文 参考訳(メタデータ) (2022-10-07T07:41:28Z) - Overview of CheckThat! 2020: Automatic Identification and Verification
of Claims in Social Media [26.60148306714383]
CLEF 2020にて,CheckThat! Labの第3版の概要を紹介する。
この研究室は英語とアラビア語の2つの異なる言語で5つのタスクをこなした。
本稿では,課題設定,評価結果,参加者が使用するアプローチの概要について述べる。
論文 参考訳(メタデータ) (2020-07-15T21:19:32Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z) - Overview of the TREC 2019 Fair Ranking Track [65.15263872493799]
TREC Fair Ranking トラックの目標は、異なるコンテンツプロバイダに対する公正性の観点から、検索システムを評価するベンチマークを開発することであった。
本稿では,タスク定義やデータ記述,アノテーションプロセスなどを含むトラックの概要について述べる。
論文 参考訳(メタデータ) (2020-03-25T21:34:58Z) - CheckThat! at CLEF 2020: Enabling the Automatic Identification and
Verification of Claims in Social Media [28.070608555714752]
CheckThat!は4つの補完的なタスクと、以前のラボエディションからの関連するタスクを提案する。
評価は、ランキングタスクの平均平均精度またはランクkの精度、分類タスクのF1を用いて行われる。
論文 参考訳(メタデータ) (2020-01-21T06:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。