論文の概要: MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and
Classification
- arxiv url: http://arxiv.org/abs/2311.09761v1
- Date: Thu, 16 Nov 2023 10:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:12:40.210368
- Title: MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and
Classification
- Title(参考訳): MAFALDA: 誤検出と分類のベンチマークと総合的研究
- Authors: Chadi Helwe, Tom Calamai, Pierre-Henri Paris, Chlo\'e Clavel, Fabian
Suchanek
- Abstract要約: 偽ニュースは偽情報、偽ニュース、プロパガンダを広めるために用いられる。
本研究は, 従来の分類と整合し, 精査する, 誤診の新しい分類法について紹介する。
次に、ゼロショット学習環境下で複数の言語モデルを評価し、その誤検出と分類能力を評価する。
- 参考スコア(独自算出の注目度): 1.0624606551524207
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fallacies can be used to spread disinformation, fake news, and propaganda,
underlining the importance of their detection. Automated detection and
classification of fallacies, however, remain challenging, mainly because of the
innate subjectivity of the task and the need for a comprehensive, unified
approach in existing research. Addressing these limitations, our study
introduces a novel taxonomy of fallacies that aligns and refines previous
classifications, a new annotation scheme tailored for subjective NLP tasks, and
a new evaluation method designed to handle subjectivity, adapted to precision,
recall, and F1-Score metrics. Using our annotation scheme, the paper introduces
MAFALDA (Multi-level Annotated FALlacy DAtaset), a gold standard dataset.
MAFALDA is based on examples from various previously existing fallacy datasets
under our unified taxonomy across three levels of granularity. We then evaluate
several language models under a zero-shot learning setting using MAFALDA to
assess their fallacy detection and classification capability. Our comprehensive
evaluation not only benchmarks the performance of these models but also
provides valuable insights into their strengths and limitations in addressing
fallacious reasoning.
- Abstract(参考訳): 誤認は偽情報、偽ニュース、プロパガンダの拡散に利用され、その検出の重要性が強調される。
しかし、タスクの本質的な主観性と既存の研究における包括的かつ統一的なアプローチの必要性から、誤字の自動検出と分類は依然として困難である。
そこで本研究では,従来の分類を整理・洗練する誤用の新しい分類法,主観的nlpタスクに適した新しいアノテーションスキーム,精度,リコール,f1-scoreメトリクスに適合した主観性を扱うための新しい評価手法を提案する。
本手法を用いて,金の標準データセットであるMAFALDA(Multi-level Annotated FALlacy DAtaset)を提案する。
MAFALDAは、3つのレベルの粒度にまたがって、我々の統合分類下の様々な既存の誤用データセットの例に基づいている。
そして、MAFALDAを用いてゼロショット学習環境下で複数の言語モデルを評価し、その誤検出と分類能力を評価する。
我々の総合的な評価は、これらのモデルのパフォーマンスをベンチマークするだけでなく、誤った推論に対処する上での強みと限界に対する貴重な洞察を提供します。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。