論文の概要: Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task
- arxiv url: http://arxiv.org/abs/2603.06416v1
- Date: Fri, 06 Mar 2026 15:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.181907
- Title: Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task
- Title(参考訳): 大規模言語モデルにおけるDeontic Conditional Reasoningの評価:Wasonの選択課題を事例として
- Authors: Hirohiko Abe, Kentaro Ozeki, Risako Ando, Takanobu Morishita, Koji Mineshima, Mitsuhiro Okada,
- Abstract要約: 本研究では,大言語モデルの条件推論の領域特異性について,デオン規則の下で検討する。
結果は、人間のように、LLMはデオン的なルールでより良い理由を示し、マッチングバイアスのようなエラーを表示する。
- 参考スコア(独自算出の注目度): 5.120890045747202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) advance in linguistic competence, their reasoning abilities are gaining increasing attention. In humans, reasoning often performs well in domain specific settings, particularly in normative rather than purely formal contexts. Although prior studies have compared LLM and human reasoning, the domain specificity of LLM reasoning remains underexplored. In this study, we introduce a new Wason Selection Task dataset that explicitly encodes deontic modality to systematically distinguish deontic from descriptive conditionals, and use it to examine LLMs' conditional reasoning under deontic rules. We further analyze whether observed error patterns are better explained by confirmation bias (a tendency to seek rule-supporting evidence) or by matching bias (a tendency to ignore negation and select items that lexically match elements of the rule). Results show that, like humans, LLMs reason better with deontic rules and display matching-bias-like errors. Together, these findings suggest that the performance of LLMs varies systematically across rule types and that their error patterns can parallel well-known human biases in this paradigm.
- Abstract(参考訳): 大きな言語モデル(LLM)が言語能力に進歩するにつれて、その推論能力はますます注目を集めている。
人間では、推論はドメイン固有の設定、特に純粋に形式的な文脈ではなく規範的によく機能する。
以前の研究ではLSMとヒトの推論を比較していたが、LSM推論の領域特異性は未解明のままである。
本研究では,記述的条件からデオン的条件を体系的に識別するために,デオン的モダリティを明示的に符号化した新しいWason Selection Taskデータセットを導入し,デオン的規則の下でのLLMの条件推論の検証に利用した。
さらに,確認バイアス(規則を支持する証拠を求める傾向)や一致バイアス(否定を無視し,規則の要素と語彙的に一致する項目を選択する傾向)により,観察された誤りパターンがよりよく説明されるかを分析する。
結果は、人間と同様に、LLMはデオン的なルールでより良い理由を示し、マッチングバイアスのようなエラーを表示する。
これらの結果から, LLMの性能は規則の種類によって様々に変化し, それらの誤りパターンは, このパラダイムでよく知られた人間のバイアスを並列に受けられることが示唆された。
関連論文リスト
- Uncovering Hidden Correctness in LLM Causal Reasoning via Symbolic Verification [56.51953062869371]
DoVerifier は、因果表現が与えられた因果グラフから導出可能であるかどうかをdo-calculus と probability theory の規則を用いてチェックする記号検証器である。
因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果
論文 参考訳(メタデータ) (2026-01-29T03:22:58Z) - DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models [58.439517684779936]
本稿では,多種多様な文からなる自然文からなる古典論理ベンチマークDivLogicEvalを提案する。
また,より信頼性の高い評価を実現するために,大規模言語モデルに固有のバイアスやランダム性の影響を緩和する新たな評価指標を導入する。
論文 参考訳(メタデータ) (2025-09-19T04:40:46Z) - RULEBREAKERS: Challenging LLMs at the Crossroads between Formal Logic and Human-like Reasoning [3.0648414540406703]
RULEBREAKERSは、大規模な言語モデルによるルールブレーカーの認識と応答を人間的な方法で厳格に評価するための最初のデータセットです。
GPT-4oを含むほとんどのモデルでは、RULEBREAKERSの中間精度が得られ、典型的な人間の推論と異なり、論理規則を過度に適用する傾向が見られた。
論文 参考訳(メタデータ) (2024-10-21T20:48:16Z) - Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment [53.17596274334017]
我々は,LLMの詳細な推論パターンの正確さを,その正しい出力の裏側で評価した。
実験により、言語生成結果が正しそうであっても、LLMが法的な判断に用いた推論パターンのかなりの部分は、誤解を招く論理や無関係な論理を表す可能性があることが示された。
論文 参考訳(メタデータ) (2024-10-06T08:33:39Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。