論文の概要: LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2601.16504v1
- Date: Fri, 23 Jan 2026 07:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.58164
- Title: LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning
- Title(参考訳): 論理コモンセンス:論理コモンセンス推論のベンチマーク
- Authors: Obed Junias, Maria Leonor Pacheco,
- Abstract要約: LOGical-ComMONSENSEQAは、原子文の対上の論理的構成として常識推論を再編成する。
モデルが接続的かつ適度に解離的推論を行うのに対して,性能は否定的質問によって著しく低下することがわかった。
- 参考スコア(独自算出の注目度): 6.8658995041250455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commonsense reasoning often involves evaluating multiple plausible interpretations rather than selecting a single atomic answer, yet most benchmarks rely on single-label evaluation, obscuring whether statements are jointly plausible, mutually exclusive, or jointly implausible. We introduce LOGICAL-COMMONSENSEQA, a benchmark that re-frames commonsense reasoning as logical composition over pairs of atomic statements using plausibility-level operators (AND, OR, NEITHER/NOR). Evaluating instruction-tuned, reasoning-specialized, and fine-tuned models under zero-shot, few-shot, and chain-of-thought prompting, we find that while models perform reasonably on conjunctive and moderately on disjunctive reasoning, performance degrades sharply on negation-based questions. LOGICAL-COMMONSENSEQA exposes fundamental reasoning limitations and provides a controlled framework for advancing compositional commonsense reasoning.
- Abstract(参考訳): 常識推論は、単一の原子答えを選択するよりも複数の可算解釈を評価することを伴うことが多いが、ほとんどのベンチマークは単一ラベルの評価に依存しており、ステートメントが共同で可算か、相互排他的か、または共同で不可算かを見極めている。
このベンチマークは、可塑性レベル演算子(AND, OR, NEITHER/NOR)を用いて、原子文のペアに対する論理的合成としてコモンセンス推論を再構成するものである。
ゼロショット, 少数ショット, チェーン・オブ・シンセサイティングによる命令調整, 推論特化, 微調整モデルの評価では, モデルが共役的, 適度に解答的推論で機能するのに対して, 性能は否定に基づく質問で著しく低下することがわかった。
LOGICAL-COMMONSENSEQAは基本的な推論の限界を明らかにし、合成コモンセンス推論を進めるための制御されたフレームワークを提供する。
関連論文リスト
- Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。
本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:30:31Z) - DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models [58.439517684779936]
本稿では,多種多様な文からなる自然文からなる古典論理ベンチマークDivLogicEvalを提案する。
また,より信頼性の高い評価を実現するために,大規模言語モデルに固有のバイアスやランダム性の影響を緩和する新たな評価指標を導入する。
論文 参考訳(メタデータ) (2025-09-19T04:40:46Z) - When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [19.354141845315276]
連鎖推論は命令追従精度を著しく低下させる。
これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文 参考訳(メタデータ) (2025-05-16T16:36:00Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。