論文の概要: Are LLMs Good Zero-Shot Fallacy Classifiers?
- arxiv url: http://arxiv.org/abs/2410.15050v1
- Date: Sat, 19 Oct 2024 09:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:19:04.399614
- Title: Are LLMs Good Zero-Shot Fallacy Classifiers?
- Title(参考訳): LLMはゼロショットの誤り分類器か?
- Authors: Fengjun Pan, Xiaobao Wu, Zongrui Li, Anh Tuan Luu,
- Abstract要約: ゼロショット誤字分類にLarge Language Models(LLM)を活用することに注力する。
ベンチマークデータセットに関する総合的な実験により、LLMはゼロショット誤り分類器となる可能性が示唆された。
我々の新しいマルチラウンドプロンプト方式は、特に小型LLMにおいて、効果的にさらなる改善をもたらすことができる。
- 参考スコア(独自算出の注目度): 24.3005882003251
- License:
- Abstract: Fallacies are defective arguments with faulty reasoning. Detecting and classifying them is a crucial NLP task to prevent misinformation, manipulative claims, and biased decisions. However, existing fallacy classifiers are limited by the requirement for sufficient labeled data for training, which hinders their out-of-distribution (OOD) generalization abilities. In this paper, we focus on leveraging Large Language Models (LLMs) for zero-shot fallacy classification. To elicit fallacy-related knowledge and reasoning abilities of LLMs, we propose diverse single-round and multi-round prompting schemes, applying different task-specific instructions such as extraction, summarization, and Chain-of-Thought reasoning. With comprehensive experiments on benchmark datasets, we suggest that LLMs could be potential zero-shot fallacy classifiers. In general, LLMs under single-round prompting schemes have achieved acceptable zero-shot performances compared to the best full-shot baselines and can outperform them in all OOD inference scenarios and some open-domain tasks. Our novel multi-round prompting schemes can effectively bring about more improvements, especially for small LLMs. Our analysis further underlines the future research on zero-shot fallacy classification. Codes and data are available at: https://github.com/panFJCharlotte98/Fallacy_Detection.
- Abstract(参考訳): 誤った主張は欠点のある推論である。
それらを検知し分類することは、誤情報、操作的クレーム、偏見のある決定を防止するための重要なNLPタスクである。
しかし、既存の誤用分類器は、トレーニングのための十分なラベル付きデータを必要とするため、そのアウト・オブ・ディストリビューション(OOD)の一般化能力を妨げている。
本稿では,ゼロショット誤り分類におけるLarge Language Models(LLMs)の活用に焦点を当てる。
本研究では,LLMの誤り関連知識と推論能力を引き出すために,抽出,要約,チェーン・オブ・サート推論などのタスク固有の命令を適用し,単一ラウンドおよび複数ラウンドのプロンプトスキームを提案する。
ベンチマークデータセットに関する総合的な実験により、LLMはゼロショット誤り分類器となる可能性が示唆された。
一般に、シングルラウンドプロンプト方式のLCMは、最高のフルショットベースラインに比べて許容できるゼロショット性能を達成し、OOD推論シナリオやいくつかのオープンドメインタスクでそれらを上回ります。
我々の新しいマルチラウンドプロンプト方式は、特に小型LLMにおいて、効果的にさらなる改善をもたらすことができる。
我々の分析は、ゼロショット誤字分類の今後の研究をさらに深めている。
コードとデータは、https://github.com/panFJCharlotte98/Fallacy_Detection.comで入手できる。
関連論文リスト
- Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Logistic Regression makes small LLMs strong and explainable "tens-of-shot" classifiers [0.0]
大規模な商用モデルではなく,小規模でローカルな生成言語モデルを使用することのメリットを,ユーザが享受できることが示される。
プライバシ、可用性、コスト、説明可能性といったこれらのアドバンテージは、商用アプリケーションにおいても、AIの広範な民主化においても重要です。
論文 参考訳(メタデータ) (2024-08-06T19:23:42Z) - Can LLMs Reason in the Wild with Programs? [20.47557047823847]
本研究では, LLM が未知型推論問題の解法を課題とする, 野生における推論の課題を紹介する。
我々は,多種多様な推論問題に対する詳細な解を含む大規模戦術誘導軌道データセットを作成する。
実験では、既存のLLMは曖昧で混在したスコープの問題で著しく失敗する。
論文 参考訳(メタデータ) (2024-06-19T18:26:19Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。
LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文 参考訳(メタデータ) (2023-04-28T19:00:43Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。