論文の概要: How susceptible are LLMs to Logical Fallacies?
- arxiv url: http://arxiv.org/abs/2308.09853v1
- Date: Fri, 18 Aug 2023 23:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:37:55.558343
- Title: How susceptible are LLMs to Logical Fallacies?
- Title(参考訳): LLMは論理的誤りにどの程度影響するか?
- Authors: Amirreza Payandeh, Dan Pluth, Jordan Hosier, Xuesu Xiao, Vijay K.
Gurbani
- Abstract要約: 論理的誤りに対する大規模言語モデルの堅牢性を評価するための診断ベンチマークであるLOGICOMを提案する。
本稿では,GPT-3.5とGPT-4の性能を評価するために,議論の的となっているトピックを含むデータセットを用いて評価を行う。
以上より, GPT-3.5 と GPT-4 は理屈によって意見の調整が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 5.723715910568911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the rational thinking capability of Large Language
Models (LLMs) in multi-round argumentative debates by exploring the impact of
fallacious arguments on their logical reasoning performance. More specifically,
we present Logic Competence Measurement Benchmark (LOGICOM), a diagnostic
benchmark to assess the robustness of LLMs against logical fallacies. LOGICOM
involves two agents: a persuader and a debater engaging in a multi-round debate
on a controversial topic, where the persuader tries to convince the debater of
the correctness of its claim. First, LOGICOM assesses the potential of LLMs to
change their opinions through reasoning. Then, it evaluates the debater's
performance in logical reasoning by contrasting the scenario where the
persuader employs logical fallacies against one where logical reasoning is
used. We use this benchmark to evaluate the performance of GPT-3.5 and GPT-4
using a dataset containing controversial topics, claims, and reasons supporting
them. Our findings indicate that both GPT-3.5 and GPT-4 can adjust their
opinion through reasoning. However, when presented with logical fallacies,
GPT-3.5 and GPT-4 are erroneously convinced 41% and 69% more often,
respectively, compared to when logical reasoning is used. Finally, we introduce
a new dataset containing over 5k pairs of logical vs. fallacious arguments. The
source code and dataset of this work are made publicly available.
- Abstract(参考訳): 本稿では,多ラウンド議論におけるLarge Language Models(LLMs)の合理的思考能力について,その論理的推論性能に対する誤った議論の影響について検討する。
具体的には,論理能力測定ベンチマーク(logicom, logic competence measurement benchmark)を提案する。
logicomには2つのエージェントが含まれている: 説得者と議論者が議論の的となっている話題について複数回議論し、説得者はその主張の正しさを議論者に納得させようとする。
まず、LOGICOMはLLMが推論によって意見を変える可能性を評価する。
そして、説得者が論理的誤用を用いるシナリオと論理的推論が使用されるシナリオとを対比して、論理的推論におけるディベートの性能を評価する。
本稿では,GPT-3.5 と GPT-4 のパフォーマンスを評価するために,議論の的となっているトピック,クレーム,それを支持する理由を含むデータセットを用いて評価を行った。
以上より, GPT-3.5 と GPT-4 は理屈によって意見の調整が可能であることが示唆された。
しかし, GPT-3.5 と GPT-4 は, 論理的推論を用いた場合と比較して, それぞれ 41% と 69% の確率で誤認される。
最後に、5k以上の論理対と誤対の引数を含む新しいデータセットを導入する。
この作業のソースコードとデータセットが公開されている。
関連論文リスト
- Assessing the Reasoning Abilities of ChatGPT in the Context of Claim
Verification [21.79282590279379]
GPT-3.5-Turbo と GPT-4 の推論能力について検討した。
我々の研究は、ChatGPTの推論プロセスが人間のような推論を反映する可能性が低いことを示唆する研究の組織に寄与する。
論文 参考訳(メタデータ) (2024-02-16T14:52:05Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Self-Contradictory Reasoning Evaluation and Detection [23.737562513392255]
モデル推論が予測をサポートしない自己矛盾推論(Self-Contra)について検討する。
高い精度は、必ずしも低い自己コントラレートに対応しない。
GPT-4は自己コントラ推論を効果的に検出するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-11-16T06:22:17Z) - A Closer Look at the Self-Verification Abilities of Large Language
Models in Logical Reasoning [79.14479982371984]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z) - Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 [14.928504625782184]
この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。
我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。
実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-04-07T01:37:45Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Logical Fallacy Detection [40.06349885733248]
本稿では,論理的誤り検出の課題を提案し,テキストに一般的に見られる論理的誤りの新たなデータセット(論理)を提供する。
簡単な構造認識型分類器は、Logicでは5.46%、LogicClimateでは4.51%で最高の言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-28T13:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。