論文の概要: MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and
Classification
- arxiv url: http://arxiv.org/abs/2311.09761v1
- Date: Thu, 16 Nov 2023 10:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:12:40.210368
- Title: MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and
Classification
- Title(参考訳): MAFALDA: 誤検出と分類のベンチマークと総合的研究
- Authors: Chadi Helwe, Tom Calamai, Pierre-Henri Paris, Chlo\'e Clavel, Fabian
Suchanek
- Abstract要約: 偽ニュースは偽情報、偽ニュース、プロパガンダを広めるために用いられる。
本研究は, 従来の分類と整合し, 精査する, 誤診の新しい分類法について紹介する。
次に、ゼロショット学習環境下で複数の言語モデルを評価し、その誤検出と分類能力を評価する。
- 参考スコア(独自算出の注目度): 1.0624606551524207
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fallacies can be used to spread disinformation, fake news, and propaganda,
underlining the importance of their detection. Automated detection and
classification of fallacies, however, remain challenging, mainly because of the
innate subjectivity of the task and the need for a comprehensive, unified
approach in existing research. Addressing these limitations, our study
introduces a novel taxonomy of fallacies that aligns and refines previous
classifications, a new annotation scheme tailored for subjective NLP tasks, and
a new evaluation method designed to handle subjectivity, adapted to precision,
recall, and F1-Score metrics. Using our annotation scheme, the paper introduces
MAFALDA (Multi-level Annotated FALlacy DAtaset), a gold standard dataset.
MAFALDA is based on examples from various previously existing fallacy datasets
under our unified taxonomy across three levels of granularity. We then evaluate
several language models under a zero-shot learning setting using MAFALDA to
assess their fallacy detection and classification capability. Our comprehensive
evaluation not only benchmarks the performance of these models but also
provides valuable insights into their strengths and limitations in addressing
fallacious reasoning.
- Abstract(参考訳): 誤認は偽情報、偽ニュース、プロパガンダの拡散に利用され、その検出の重要性が強調される。
しかし、タスクの本質的な主観性と既存の研究における包括的かつ統一的なアプローチの必要性から、誤字の自動検出と分類は依然として困難である。
そこで本研究では,従来の分類を整理・洗練する誤用の新しい分類法,主観的nlpタスクに適した新しいアノテーションスキーム,精度,リコール,f1-scoreメトリクスに適合した主観性を扱うための新しい評価手法を提案する。
本手法を用いて,金の標準データセットであるMAFALDA(Multi-level Annotated FALlacy DAtaset)を提案する。
MAFALDAは、3つのレベルの粒度にまたがって、我々の統合分類下の様々な既存の誤用データセットの例に基づいている。
そして、MAFALDAを用いてゼロショット学習環境下で複数の言語モデルを評価し、その誤検出と分類能力を評価する。
我々の総合的な評価は、これらのモデルのパフォーマンスをベンチマークするだけでなく、誤った推論に対処する上での強みと限界に対する貴重な洞察を提供します。
関連論文リスト
- MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Large Language Models are Few-Shot Training Example Generators: A Case
Study in Fallacy Recognition [53.952381499149965]
計算誤認識は、さまざまなジャンル、ドメイン、データセットに見られる誤認識のタイプによって、課題に直面します。
我々は、追加の文脈を取り入れ、大規模な言語モデルを活用して合成データを生成することによって、誤認識のための既存のモデルを強化することを目指している。
評価結果は、誤検出タイプ、データセット、ジェネレータ間で一貫した改善を示す。
論文 参考訳(メタデータ) (2023-11-16T04:17:47Z) - Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement [3.537369004801589]
我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T19:27:59Z) - Few-shot Class-incremental Learning: A Survey [16.729567512584822]
FSCIL(Few-shot Class-Incremental Learning)は機械学習(ML)においてユニークな課題を提示する
本稿は、FSCILの総合的かつ体系的なレビューを提供することを目的としている。
論文 参考訳(メタデータ) (2023-08-13T13:01:21Z) - Towards Weakly-Supervised Hate Speech Classification Across Datasets [72.12707900327558]
そこで本研究では,テキスト分類モデルの有効性について検討した。
また,HS分類モデルの一般化性の低さの原因について,詳細な定量的,定性的な分析を行った。
論文 参考訳(メタデータ) (2023-05-04T08:15:40Z) - Navigating the Pitfalls of Active Learning Evaluation: A Systematic
Framework for Meaningful Performance Assessment [3.3064235071867856]
アクティブラーニング(AL)は、ラベルなしデータのプールから最も情報性の高いサンプルをインタラクティブに選択することで、ラベル付けの負担を軽減することを目的としている。
半教師型(Semi-SL)や自己教師型学習(Self-SL)のような新興パラダイムと比較して、ALの有効性を疑問視する研究もある。
論文 参考訳(メタデータ) (2023-01-25T15:07:44Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。