論文の概要: RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises
- arxiv url: http://arxiv.org/abs/2502.13125v1
- Date: Tue, 18 Feb 2025 18:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:30.991898
- Title: RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises
- Title(参考訳): RuozhiBench: 論理的誤りと誤解を招く前提によるLLMの評価
- Authors: Zenan Zhai, Hao Li, Xudong Han, Zhenxuan Zhang, Yixuan Zhang, Timothy Baldwin, Haonan Li,
- Abstract要約: 本稿では,677質問を慎重に整理したデータセットであるRuozhiBenchについて紹介する。
我々は,LuozhiBench上の5シリーズから17の大規模言語モデル (LLM) を評価する。
LLMは論理的誤りを検出・推論する能力に限界を示し、最も優れたモデルであるClaude-3-haikuでさえも90%以上のヒトと比較して62%の精度しか達成できなかった。
- 参考スコア(独自算出の注目度): 41.39610589639382
- License:
- Abstract: Recent advances in large language models (LLMs) have shown that they can answer questions requiring complex reasoning. However, their ability to identify and respond to text containing logical fallacies or deliberately misleading premises remains less studied. To address this gap, we introduce RuozhiBench, a bilingual dataset comprising 677 carefully curated questions that contain various forms of deceptive reasoning, meticulously crafted through extensive human effort and expert review. In a comprehensive evaluation of 17 LLMs from 5 Series over RuozhiBench using both open-ended and two-choice formats, we conduct extensive analyses on evaluation protocols and result patterns. Despite their high scores on conventional benchmarks, these models showed limited ability to detect and reason correctly about logical fallacies, with even the best-performing model, Claude-3-haiku, achieving only 62% accuracy compared to the human of more than 90%.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複雑な推論を必要とする疑問に答えることができることを示している。
しかし、論理的な誤りや故意に誤解を招く前提を含むテキストを識別し、応答する能力は、まだ研究されていない。
このギャップに対処するために、RuozhiBenchという、677の慎重にキュレートされた質問からなるバイリンガルデータセットを紹介します。
オープンエンドフォーマットと2チョイスフォーマットの両方を用いて, ルージベンチ上での5シリーズ17 LLMの総合的な評価を行い, 評価プロトコルと結果パターンを広範囲に分析した。
従来のベンチマークで高いスコアを得たにもかかわらず、これらのモデルでは論理的誤りを正しく検出し、推論する能力が限られており、最高の性能のモデルであるClaude-3-haikuでさえ、90%以上の人間と比較してわずか62%の精度しか達成できなかった。
関連論文リスト
- Fine-Tuning Language Models for Ethical Ambiguity: A Comparative Study of Alignment with Human Responses [1.566834021297545]
言語モデルは曖昧さを扱うため、人間の意図を誤解することが多い。
道徳的にあいまいな文脈では人間とLLMの判断が不十分であることを示す。
テキスト・トゥ・テキスト・フォーマットにおけるモデルによるテキスト・配信の理解を改善するための微調整手法により、性能とアライメントを効果的に向上する。
論文 参考訳(メタデータ) (2024-10-10T11:24:04Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。