論文の概要: Ta'keed: The First Generative Fact-Checking System for Arabic Claims
- arxiv url: http://arxiv.org/abs/2401.14067v1
- Date: Thu, 25 Jan 2024 10:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 14:54:44.934080
- Title: Ta'keed: The First Generative Fact-Checking System for Arabic Claims
- Title(参考訳): Ta'keed:アラビア語のクレームのための最初の生成ファクトチェッキングシステム
- Authors: Saud Althabiti, Mohammad Ammar Alsalka, and Eric Atwell
- Abstract要約: 本稿では,アラビア語の自動ファクトチェックシステムであるTa'keedを紹介する。
タケドは、特にアラビア語で、主張の信頼性に関する説明を生成する。
このシステムは、分類タスクで有望なF1スコア0.72を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Ta'keed, an explainable Arabic automatic fact-checking
system. While existing research often focuses on classifying claims as "True"
or "False," there is a limited exploration of generating explanations for claim
credibility, particularly in Arabic. Ta'keed addresses this gap by assessing
claim truthfulness based on retrieved snippets, utilizing two main components:
information retrieval and LLM-based claim verification. We compiled the
ArFactEx, a testing gold-labelled dataset with manually justified references,
to evaluate the system. The initial model achieved a promising F1 score of 0.72
in the classification task. Meanwhile, the system's generated explanations are
compared with gold-standard explanations syntactically and semantically. The
study recommends evaluating using semantic similarities, resulting in an
average cosine similarity score of 0.76. Additionally, we explored the impact
of varying snippet quantities on claim classification accuracy, revealing a
potential correlation, with the model using the top seven hits outperforming
others with an F1 score of 0.77.
- Abstract(参考訳): 本稿では,アラビア語の自動ファクトチェックシステムta'keedについて述べる。
既存の研究は、主張を「真実」または「偽」と分類することに焦点を当てていることが多いが、特にアラビア語では、主張の信頼性に関する説明を生成することは限られている。
Ta'keedはこのギャップに対処し、検索されたスニペットに基づいてクレーム真理性を評価し、情報検索とLLMベースのクレーム検証という2つの主要なコンポーネントを利用する。
我々は、手動で正当化された参照を持つゴールドラベルのデータセットであるArFactExをコンパイルし、システムを評価した。
最初のモデルは、分類タスクで有望なF1スコア0.72を達成した。
一方、システムの生成した説明は、構文的にも意味的にもゴールドスタンダードの説明と比較される。
この研究は意味的類似性の評価を推奨し、平均コサイン類似度スコアは0.76である。
さらに,クレーム分類精度に及ぼすスニペット量の影響について検討し,F1スコア0.77の上位7ヒットを用いたモデルを用いて検討した。
関連論文リスト
- Using Natural Language Explanations to Rescale Human Judgments [89.21530406247142]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Aggregating Pairwise Semantic Differences for Few-Shot Claim Veracity
Classification [21.842139093124512]
本稿では,新しいベクトルベース手法であるSEEDを導入する。
クラス内のクレーム-エビデンス対の平均意味的差異を捉えるクラス代表ベクトルをシミュレートできるという仮説に基づいて構築する。
FEVERとSCIFACTデータセットで実施された実験では、数ショット設定で競合するベースラインよりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2022-05-11T17:23:37Z) - Combining Vagueness Detection with Deep Learning to Identify Fake News [0.18472148461613158]
偽ニュースを識別するための2つの独立した検出手法、VAGOとFAKE-CLFを組み合わせた。
VAGOは意味ルールとNLP技術を組み合わせてテキストの曖昧さと主観性を測定する。
FAKE-CLFは畳み込みニューラルネットワークの分類に依存しており、テキストをバイアスまたは正当と分類するためにディープラーニングを指導している。
VAGOによる曖昧さと主観性尺度とFAKE-CLFによるテキストの分類との間には,正の相関関係が認められた。
論文 参考訳(メタデータ) (2021-10-27T21:25:10Z) - Overview of the CLEF-2019 CheckThat!: Automatic Identification and
Verification of Claims [26.96108180116284]
CheckThat!ラボでは、英語とアラビア語の2つの異なる言語で2つのタスクをこなした。
Task 1の最も成功したアプローチは、さまざまなニューラルネットワークとロジスティック回帰を使用した。
ラーニング・トゥ・ランクは、サブタスクAの最高スコアランで使用された。
論文 参考訳(メタデータ) (2021-09-25T16:08:09Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Automatic Difficulty Classification of Arabic Sentences [0.0]
3方向cefr分類の精度はアラビア語-bert分類では0.80, xlm-r分類では0.75, 回帰では0.71スピアマン相関である。
我々は,異なる種類の文埋め込み(fastText, mBERT, XLM-R, Arabic-BERT)とPOSタグ, 依存性木, 可読性スコア, 言語学習者の頻度リストなど,従来の言語機能との比較を行った。
論文 参考訳(メタデータ) (2021-03-07T16:02:04Z) - CIF-based Collaborative Decoding for End-to-end Contextual Speech
Recognition [14.815422751109061]
コンテキストバイアスをより制御可能な方法でサポートするCIF(Continuous Integration-and-fire)ベースのモデルを提案する。
追加のコンテキスト処理ネットワークを導入し、コンテキスト埋め込みを抽出し、音響的に関連するコンテキスト情報を統合し、コンテキスト出力分布をデコードする。
提案手法は, 強ベースラインと比較して, 相対的文字誤り率 (CER) の8.83%/21.13%, 相対的名前付きエンティティ文字誤り率 (NE-CER) の40.14%/51.50%削減を実現する。
論文 参考訳(メタデータ) (2020-12-17T09:40:11Z) - A Unified Dual-view Model for Review Summarization and Sentiment
Classification with Inconsistency Loss [51.448615489097236]
ユーザーレビューから正確な要約と感情を取得することは、現代のEコマースプラットフォームにとって不可欠な要素である。
本稿では,これら2つのタスクの性能を協調的に改善する新しいデュアルビューモデルを提案する。
異なる領域の4つの実世界のデータセットに対する実験結果から,本モデルの有効性が示された。
論文 参考訳(メタデータ) (2020-06-02T13:34:11Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。