論文の概要: CoCoLoFa: A Dataset of News Comments with Common Logical Fallacies Written by LLM-Assisted Crowds
- arxiv url: http://arxiv.org/abs/2410.03457v1
- Date: Fri, 4 Oct 2024 14:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 22:09:37.829001
- Title: CoCoLoFa: A Dataset of News Comments with Common Logical Fallacies Written by LLM-Assisted Crowds
- Title(参考訳): CoCoLoFa: LLM支援の群衆が書いた共通の論理的誤りを伴うニュースコメントのデータセット
- Authors: Min-Hsuan Yeh, Ruyuan Wan, Ting-Hao 'Kenneth' Huang,
- Abstract要約: 本稿では,648のニュース記事に対する7,706のコメントを含む,既知の最大の論理誤りデータセットであるCoCoLoFaを紹介する。
私たちは143人の群衆労働者を雇い、特定の誤字を具現化したコメントを書きました。
専門家は、CoCoLoFaの書き込み品質とラベル付けの有効性を高い信頼性と評価した。
- 参考スコア(独自算出の注目度): 10.673213108892329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting logical fallacies in texts can help users spot argument flaws, but automating this detection is not easy. Manually annotating fallacies in large-scale, real-world text data to create datasets for developing and validating detection models is costly. This paper introduces CoCoLoFa, the largest known logical fallacy dataset, containing 7,706 comments for 648 news articles, with each comment labeled for fallacy presence and type. We recruited 143 crowd workers to write comments embodying specific fallacy types (e.g., slippery slope) in response to news articles. Recognizing the complexity of this writing task, we built an LLM-powered assistant into the workers' interface to aid in drafting and refining their comments. Experts rated the writing quality and labeling validity of CoCoLoFa as high and reliable. BERT-based models fine-tuned using CoCoLoFa achieved the highest fallacy detection (F1=0.86) and classification (F1=0.87) performance on its test set, outperforming the state-of-the-art LLMs. Our work shows that combining crowdsourcing and LLMs enables us to more effectively construct datasets for complex linguistic phenomena that crowd workers find challenging to produce on their own.
- Abstract(参考訳): テキスト中の論理的誤検出は、ユーザが引数の欠陥を見つけるのに役立つが、この検出を自動化するのは容易ではない。
大規模な実世界のテキストデータを手動で注釈付けして、検出モデルの開発と検証のためのデータセットを作成するのはコストがかかる。
本稿では,648件のニュース記事に対する7,706件のコメントと,それぞれのコメントに誤りの有無とタイプをラベル付けした,既知の最大の論理的誤読データセットであるCoCoLoFaを紹介する。
我々は,ニュース記事に反応して,特定の誤字型(例えば,滑りやすい斜面)を具現化したコメントを書くために,143人の群衆労働者を募集した。
この作業の複雑さを認識して,作業者のインターフェースにLLMを利用したアシスタントを構築し,コメントの起草と修正を支援した。
専門家は、CoCoLoFaの書き込み品質とラベル付けの有効性を高い信頼性と評価した。
CoCoLoFaを使用して微調整されたBERTベースのモデルは、テストセット上で最高の誤検出(F1=0.86)と分類(F1=0.87)を達成し、最先端のLLMよりも優れていた。
我々の研究は、クラウドソーシングとLLMを組み合わせることで、より効果的に複雑な言語現象のデータセットを構築することができることを示している。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Insights from Benchmarking Frontier Language Models on Web App Code Generation [1.7268889851975326]
本稿では,WebApp1Kベンチマークによる16のフロンティア大言語モデル(LLM)の評価から得られた知見について述べる。
結果は、全てのモデルが類似した知識を持っているが、それらの性能は、それらが犯した誤りの頻度によって区別されることを示している。
論文 参考訳(メタデータ) (2024-09-08T18:24:26Z) - Flee the Flaw: Annotating the Underlying Logic of Fallacious Arguments Through Templates and Slot-filling [15.339084849719223]
一般的な非公式な論理的誤字に対して、説明可能なテンプレートを4つ導入する。
LOGICデータセットから抽出した400の誤った議論に対して注釈研究を行う。
我々は、最先端の言語モデルが誤検出テンプレートの発見に苦労していることを発見した。
論文 参考訳(メタデータ) (2024-06-18T08:44:45Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - NL2FOL: Translating Natural Language to First-Order Logic for Logical Fallacy Detection [45.28949266878263]
本研究では,自然言語を一階論理に変換することによって,論理的誤りを確実に検出する手法を設計する。
次に、満足度モデュロ理論(SMT)を用いて、式の有効性を推論する。
私たちのアプローチは堅牢で解釈可能で、トレーニングデータや微調整は必要ありません。
論文 参考訳(メタデータ) (2024-04-18T00:20:48Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Large Language Models are Few-Shot Training Example Generators: A Case Study in Fallacy Recognition [49.38757847011105]
計算誤認識は、さまざまなジャンル、ドメイン、データセットに見られる誤認識のタイプによって、課題に直面します。
我々は、追加の文脈を取り入れ、大規模な言語モデルを活用して合成データを生成することによって、誤認識のための既存のモデルを強化することを目指している。
評価結果は、誤検出タイプ、データセット、ジェネレータ間で一貫した改善を示す。
論文 参考訳(メタデータ) (2023-11-16T04:17:47Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。