論文の概要: RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises
- arxiv url: http://arxiv.org/abs/2502.13125v1
- Date: Tue, 18 Feb 2025 18:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:09.134232
- Title: RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises
- Title(参考訳): RuozhiBench: 論理的誤りと誤解を招く前提によるLLMの評価
- Authors: Zenan Zhai, Hao Li, Xudong Han, Zhenxuan Zhang, Yixuan Zhang, Timothy Baldwin, Haonan Li,
- Abstract要約: 本稿では,677質問を慎重に整理したデータセットであるRuozhiBenchについて紹介する。
我々は,LuozhiBench上の5シリーズから17の大規模言語モデル (LLM) を評価する。
LLMは論理的誤りを検出・推論する能力に限界を示し、最も優れたモデルであるClaude-3-haikuでさえも90%以上のヒトと比較して62%の精度しか達成できなかった。
- 参考スコア(独自算出の注目度): 41.39610589639382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have shown that they can answer questions requiring complex reasoning. However, their ability to identify and respond to text containing logical fallacies or deliberately misleading premises remains less studied. To address this gap, we introduce RuozhiBench, a bilingual dataset comprising 677 carefully curated questions that contain various forms of deceptive reasoning, meticulously crafted through extensive human effort and expert review. In a comprehensive evaluation of 17 LLMs from 5 Series over RuozhiBench using both open-ended and two-choice formats, we conduct extensive analyses on evaluation protocols and result patterns. Despite their high scores on conventional benchmarks, these models showed limited ability to detect and reason correctly about logical fallacies, with even the best-performing model, Claude-3-haiku, achieving only 62% accuracy compared to the human of more than 90%.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複雑な推論を必要とする疑問に答えることができることを示している。
しかし、論理的な誤りや故意に誤解を招く前提を含むテキストを識別し、応答する能力は、まだ研究されていない。
このギャップに対処するために、RuozhiBenchという、677の慎重にキュレートされた質問からなるバイリンガルデータセットを紹介します。
オープンエンドフォーマットと2チョイスフォーマットの両方を用いて, ルージベンチ上での5シリーズ17 LLMの総合的な評価を行い, 評価プロトコルと結果パターンを広範囲に分析した。
従来のベンチマークで高いスコアを得たにもかかわらず、これらのモデルでは論理的誤りを正しく検出し、推論する能力が限られており、最高の性能のモデルであるClaude-3-haikuでさえ、90%以上の人間と比較してわずか62%の精度しか達成できなかった。
関連論文リスト
- Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams [2.897171041611256]
CMExamSetは,全国認定の4つのCM認定試験から689の質問を正解したベンチマークデータセットである。
その結果、GPT-4o と Claude 3.7 は、平均精度が82%、Claude 3.7 が83%である。
概念的誤解は最も一般的なものであり、拡張されたドメイン固有の推論モデルの必要性を暗示している。
論文 参考訳(メタデータ) (2025-04-04T18:13:45Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities [39.68147391225923]
大規模言語モデル(LLM)における長文推論能力を評価するための厳格に構築されたベンチマークであるDocPuzzleを提案する。
このベンチマークは、長い実世界の文書に対して多段階の推論を必要とする100のエキスパートレベルのQA問題からなる。
本稿では,チェックリスト誘導プロセス分析による予測バイアスを軽減する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-25T03:29:53Z) - None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks [0.9831489366502301]
本稿では,これまで見られたトークンや概念から正解を完全に解離する,複数選択質問に対する一般的な変分手法を提案する。
この手法を用いて、英語とスペイン語で利用可能な2つのデータセットに基づいて、最先端のプロプライエタリおよびオープンソースLLMを評価する。
その結果, MMLUでは平均57%, UNED-Access 2024では50%の精度低下がみられた。
論文 参考訳(メタデータ) (2025-02-18T14:32:44Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。
本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。