論文の概要: DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.15587v2
- Date: Tue, 23 Sep 2025 14:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 14:02:59.902477
- Title: DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models
- Title(参考訳): DivLogicEval: 大規模言語モデルにおける論理推論評価のベンチマークフレームワーク
- Authors: Tsz Ting Chung, Lemao Liu, Mo Yu, Dit-Yan Yeung,
- Abstract要約: 本稿では,多種多様な文からなる自然文からなる古典論理ベンチマークDivLogicEvalを提案する。
また,より信頼性の高い評価を実現するために,大規模言語モデルに固有のバイアスやランダム性の影響を緩和する新たな評価指標を導入する。
- 参考スコア(独自算出の注目度): 58.439517684779936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logic reasoning in natural language has been recognized as an important measure of human intelligence for Large Language Models (LLMs). Popular benchmarks may entangle multiple reasoning skills and thus provide unfaithful evaluations on the logic reasoning skill. Meanwhile, existing logic reasoning benchmarks are limited in language diversity and their distributions are deviated from the distribution of an ideal logic reasoning benchmark, which may lead to biased evaluation results. This paper thereby proposes a new classical logic benchmark DivLogicEval, consisting of natural sentences composed of diverse statements in a counterintuitive way. To ensure a more reliable evaluation, we also introduce a new evaluation metric that mitigates the influence of bias and randomness inherent in LLMs. Through experiments, we demonstrate the extent to which logical reasoning is required to answer the questions in DivLogicEval and compare the performance of different popular LLMs in conducting logical reasoning.
- Abstract(参考訳): 自然言語における論理的推論は、Large Language Models (LLMs) における人間の知能の重要な尺度として認識されている。
人気のあるベンチマークは、複数の推論スキルを絡めて、ロジック推論スキルに関する不誠実な評価を提供する。
一方、既存の論理推論ベンチマークは言語の多様性に制限があり、それらの分布は理想的な論理推論ベンチマークの分布から逸脱し、バイアス評価結果につながる可能性がある。
そこで本稿では,多様な文からなる自然文からなる古典論理ベンチマークDivLogicEvalを提案する。
より信頼性の高い評価を実現するため,LLMに固有のバイアスやランダム性の影響を緩和する新たな評価指標も導入した。
実験を通して,DivLogicEvalの質問に対して論理的推論がどの程度必要かを示し,論理的推論を行う上で,様々なLLMの性能を比較した。
関連論文リスト
- LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。