Fugu-MT 論文翻訳(概要): MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and Classification

論文の概要: MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and Classification

arxiv url: http://arxiv.org/abs/2311.09761v1
Date: Thu, 16 Nov 2023 10:35:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 15:12:40.210368
Title: MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and Classification
Title（参考訳）: MAFALDA: 誤検出と分類のベンチマークと総合的研究
Authors: Chadi Helwe, Tom Calamai, Pierre-Henri Paris, Chlo\'e Clavel, Fabian Suchanek
Abstract要約: 偽ニュースは偽情報、偽ニュース、プロパガンダを広めるために用いられる。本研究は, 従来の分類と整合し, 精査する, 誤診の新しい分類法について紹介する。次に、ゼロショット学習環境下で複数の言語モデルを評価し、その誤検出と分類能力を評価する。
参考スコア（独自算出の注目度）: 1.0624606551524207
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Fallacies can be used to spread disinformation, fake news, and propaganda, underlining the importance of their detection. Automated detection and classification of fallacies, however, remain challenging, mainly because of the innate subjectivity of the task and the need for a comprehensive, unified approach in existing research. Addressing these limitations, our study introduces a novel taxonomy of fallacies that aligns and refines previous classifications, a new annotation scheme tailored for subjective NLP tasks, and a new evaluation method designed to handle subjectivity, adapted to precision, recall, and F1-Score metrics. Using our annotation scheme, the paper introduces MAFALDA (Multi-level Annotated FALlacy DAtaset), a gold standard dataset. MAFALDA is based on examples from various previously existing fallacy datasets under our unified taxonomy across three levels of granularity. We then evaluate several language models under a zero-shot learning setting using MAFALDA to assess their fallacy detection and classification capability. Our comprehensive evaluation not only benchmarks the performance of these models but also provides valuable insights into their strengths and limitations in addressing fallacious reasoning.
Abstract（参考訳）: 誤認は偽情報、偽ニュース、プロパガンダの拡散に利用され、その検出の重要性が強調される。しかし、タスクの本質的な主観性と既存の研究における包括的かつ統一的なアプローチの必要性から、誤字の自動検出と分類は依然として困難である。そこで本研究では,従来の分類を整理・洗練する誤用の新しい分類法,主観的nlpタスクに適した新しいアノテーションスキーム,精度,リコール,f1-scoreメトリクスに適合した主観性を扱うための新しい評価手法を提案する。本手法を用いて,金の標準データセットであるMAFALDA(Multi-level Annotated FALlacy DAtaset)を提案する。 MAFALDAは、3つのレベルの粒度にまたがって、我々の統合分類下の様々な既存の誤用データセットの例に基づいている。そして、MAFALDAを用いてゼロショット学習環境下で複数の言語モデルを評価し、その誤検出と分類能力を評価する。我々の総合的な評価は、これらのモデルのパフォーマンスをベンチマークするだけでなく、誤った推論に対処する上での強みと限界に対する貴重な洞察を提供します。

関連論文リスト

SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。 SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文参考訳（メタデータ） (2025-01-26T16:45:09Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Understanding and Mitigating Classification Errors Through Interpretable Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。提案手法であるPremiseが実際によく動作することを示す。
論文参考訳（メタデータ） (2023-11-18T00:24:26Z)
Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文参考訳（メタデータ） (2023-11-16T10:18:32Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文参考訳（メタデータ） (2020-10-05T05:04:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。