論文の概要: How susceptible are LLMs to Logical Fallacies?
- arxiv url: http://arxiv.org/abs/2308.09853v1
- Date: Fri, 18 Aug 2023 23:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:37:55.558343
- Title: How susceptible are LLMs to Logical Fallacies?
- Title(参考訳): LLMは論理的誤りにどの程度影響するか?
- Authors: Amirreza Payandeh, Dan Pluth, Jordan Hosier, Xuesu Xiao, Vijay K.
Gurbani
- Abstract要約: 論理的誤りに対する大規模言語モデルの堅牢性を評価するための診断ベンチマークであるLOGICOMを提案する。
本稿では,GPT-3.5とGPT-4の性能を評価するために,議論の的となっているトピックを含むデータセットを用いて評価を行う。
以上より, GPT-3.5 と GPT-4 は理屈によって意見の調整が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 5.723715910568911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the rational thinking capability of Large Language
Models (LLMs) in multi-round argumentative debates by exploring the impact of
fallacious arguments on their logical reasoning performance. More specifically,
we present Logic Competence Measurement Benchmark (LOGICOM), a diagnostic
benchmark to assess the robustness of LLMs against logical fallacies. LOGICOM
involves two agents: a persuader and a debater engaging in a multi-round debate
on a controversial topic, where the persuader tries to convince the debater of
the correctness of its claim. First, LOGICOM assesses the potential of LLMs to
change their opinions through reasoning. Then, it evaluates the debater's
performance in logical reasoning by contrasting the scenario where the
persuader employs logical fallacies against one where logical reasoning is
used. We use this benchmark to evaluate the performance of GPT-3.5 and GPT-4
using a dataset containing controversial topics, claims, and reasons supporting
them. Our findings indicate that both GPT-3.5 and GPT-4 can adjust their
opinion through reasoning. However, when presented with logical fallacies,
GPT-3.5 and GPT-4 are erroneously convinced 41% and 69% more often,
respectively, compared to when logical reasoning is used. Finally, we introduce
a new dataset containing over 5k pairs of logical vs. fallacious arguments. The
source code and dataset of this work are made publicly available.
- Abstract(参考訳): 本稿では,多ラウンド議論におけるLarge Language Models(LLMs)の合理的思考能力について,その論理的推論性能に対する誤った議論の影響について検討する。
具体的には,論理能力測定ベンチマーク(logicom, logic competence measurement benchmark)を提案する。
logicomには2つのエージェントが含まれている: 説得者と議論者が議論の的となっている話題について複数回議論し、説得者はその主張の正しさを議論者に納得させようとする。
まず、LOGICOMはLLMが推論によって意見を変える可能性を評価する。
そして、説得者が論理的誤用を用いるシナリオと論理的推論が使用されるシナリオとを対比して、論理的推論におけるディベートの性能を評価する。
本稿では,GPT-3.5 と GPT-4 のパフォーマンスを評価するために,議論の的となっているトピック,クレーム,それを支持する理由を含むデータセットを用いて評価を行った。
以上より, GPT-3.5 と GPT-4 は理屈によって意見の調整が可能であることが示唆された。
しかし, GPT-3.5 と GPT-4 は, 論理的推論を用いた場合と比較して, それぞれ 41% と 69% の確率で誤認される。
最後に、5k以上の論理対と誤対の引数を含む新しいデータセットを導入する。
この作業のソースコードとデータセットが公開されている。
関連論文リスト
- A Logical Fallacy-Informed Framework for Argument Generation [34.35377699079075]
FIPOは、大規模言語モデルを論理的に健全な議論に導いてくれる、誤用インフォームドフレームワークである。
議論データセットの結果から,提案手法は誤り率を最大17.5%削減することを示した。
私たちのコードは alucamouchel.com/lucamouchel/Logical-Fallacies で利用可能です。
論文 参考訳(メタデータ) (2024-08-07T08:19:44Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding [40.2816930342597]
大規模言語モデル(LLM)は多くの推論タスクにおいて優れたパフォーマンスを示している。
しかしそれでも、論理的推論を含む複雑な推論タスクに苦戦している。
本稿では,WHAT,WHY,HOWの3次元から具体的な5つのタスクを提案する。
論文 参考訳(メタデータ) (2024-04-04T08:38:03Z) - Assessing the Reasoning Abilities of ChatGPT in the Context of Claim Verification [19.94897851500131]
GPT-3.5-Turbo と GPT-4 の推論能力について検討した。
我々の研究は、ChatGPTの推論プロセスが人間のような推論を反映する可能性が低いことを示唆する研究の組織に寄与する。
論文 参考訳(メタデータ) (2024-02-16T14:52:05Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。
LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。
GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文 参考訳(メタデータ) (2023-11-16T06:22:17Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。