論文の概要: Normative Reasoning in Large Language Models: A Comparative Benchmark from Logical and Modal Perspectives
- arxiv url: http://arxiv.org/abs/2510.26606v1
- Date: Thu, 30 Oct 2025 15:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.884496
- Title: Normative Reasoning in Large Language Models: A Comparative Benchmark from Logical and Modal Perspectives
- Title(参考訳): 大規模言語モデルにおけるノルマ的推論:論理的およびモーダル的視点による比較ベンチマーク
- Authors: Kentaro Ozeki, Risako Ando, Takanobu Morishita, Hirohiko Abe, Koji Mineshima, Mitsuhiro Okada,
- Abstract要約: 論理的, モーダル的両面から, 規範的領域における大言語モデルの推論能力を評価する。
以上の結果から, LLMは一般的に妥当な推論パターンに従属するが, 特定の規範的推論において顕著な矛盾が認められた。
- 参考スコア(独自算出の注目度): 5.120890045747202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Normative reasoning is a type of reasoning that involves normative or deontic modality, such as obligation and permission. While large language models (LLMs) have demonstrated remarkable performance across various reasoning tasks, their ability to handle normative reasoning remains underexplored. In this paper, we systematically evaluate LLMs' reasoning capabilities in the normative domain from both logical and modal perspectives. Specifically, to assess how well LLMs reason with normative modals, we make a comparison between their reasoning with normative modals and their reasoning with epistemic modals, which share a common formal structure. To this end, we introduce a new dataset covering a wide range of formal patterns of reasoning in both normative and epistemic domains, while also incorporating non-formal cognitive factors that influence human reasoning. Our results indicate that, although LLMs generally adhere to valid reasoning patterns, they exhibit notable inconsistencies in specific types of normative reasoning and display cognitive biases similar to those observed in psychological studies of human reasoning. These findings highlight challenges in achieving logical consistency in LLMs' normative reasoning and provide insights for enhancing their reliability. All data and code are released publicly at https://github.com/kmineshima/NeuBAROCO.
- Abstract(参考訳): 規範的推論(英: Normative reasoning)とは、義務や許可など、規範的または非合法的なモダリティを含む推論の一種である。
大規模言語モデル(LLM)は、様々な推論タスクにおいて顕著な性能を示してきたが、規範的推論を扱う能力はいまだ探索されていない。
本稿では,論理的およびモーダル的両面から,規範的領域におけるLLMの推論能力を体系的に評価する。
具体的には, LLM がノルムモーダルとどの程度の理性を持つかを評価するために, ノルムモーダルとの理性比較と, 共通の形式的構造を持つてんかんモーダルとの理性比較を行う。
そこで本研究では,ヒトの推論に影響を与える非形式的認知要因を取り入れつつ,規範的領域と認識的領域の両方における推論の多岐にわたる形式的パターンをカバーする新しいデータセットを提案する。
以上の結果から, LLMは一般的に妥当な推論パターンに従属するが, 特定の規範的推論には矛盾がみられ, 人間の推論の心理学的研究と類似した認知バイアスがみられた。
これらの知見は,LLMの規範的推論において論理的整合性を達成し,信頼性を高めるための洞察を提供する上での課題を浮き彫りにしている。
すべてのデータとコードはhttps://github.com/kmineshima/NeuBAROCO.comで公開されている。
関連論文リスト
- DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models [58.439517684779936]
本稿では,多種多様な文からなる自然文からなる古典論理ベンチマークDivLogicEvalを提案する。
また,より信頼性の高い評価を実現するために,大規模言語モデルに固有のバイアスやランダム性の影響を緩和する新たな評価指標を導入する。
論文 参考訳(メタデータ) (2025-09-19T04:40:46Z) - MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs [34.2218892593144]
MME-Reasoningは、大規模言語モデル(MLLM)の推論能力を評価するために設計されたベンチマークである。
本評価では,論理的推論能力の総合的評価を受けると,最先端のMLLMの限界が明らかになる。
さらに,「思考モード」や「ルールベースRL」など,推論能力を高めると一般的に信じられているアプローチの詳細な分析を行った。
論文 参考訳(メタデータ) (2025-05-27T15:23:23Z) - RULEBREAKERS: Challenging LLMs at the Crossroads between Formal Logic and Human-like Reasoning [3.0648414540406703]
RULEBREAKERSは、大規模な言語モデルによるルールブレーカーの認識と応答を人間的な方法で厳格に評価するための最初のデータセットです。
GPT-4oを含むほとんどのモデルでは、RULEBREAKERSの中間精度が得られ、典型的な人間の推論と異なり、論理規則を過度に適用する傾向が見られた。
論文 参考訳(メタデータ) (2024-10-21T20:48:16Z) - Benchmarking Defeasible Reasoning with Large Language Models -- Initial Experiments and Future Directions [0.36868085124383626]
本稿では,様々なデファシブルなルールベースの推論パターンに対応するベンチマークを提案する。
我々は、デファシブルなルールを大規模言語モデルに適したテキストに変換することで、デファシブルな論理推論のための既存のベンチマークを修正した。
そこで我々は,ChatGPTを用いた非単調な規則に基づく推論の予備実験を行い,デファジブル論理で定義された推論パターンと比較した。
論文 参考訳(メタデータ) (2024-10-16T12:36:23Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。