論文の概要: If Pigs Could Fly... Can LLMs Logically Reason Through Counterfactuals?
- arxiv url: http://arxiv.org/abs/2505.22318v1
- Date: Wed, 28 May 2025 13:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.611948
- Title: If Pigs Could Fly... Can LLMs Logically Reason Through Counterfactuals?
- Title(参考訳): もし豚が飛べるなら...LLMは対物兵器を通して論理的に推論できるのか?
- Authors: Ishwar B Balappanawar, Vamshi Krishna Bonagiri, Anish R Joishy, Manas Gaur, Krishnaprasad Thirunarayan, Ponnurangam Kumaraguru,
- Abstract要約: 大きな言語モデル(LLM)は、よく知られた文脈で印象的な推論能力を示すが、文脈がパラメトリックな知識と矛盾する場合に苦労する。
本稿では,反事実的(仮説的知識の衝突)シナリオによる論理的推論を評価するために,CounterLogicを導入する。
本稿では,メタ認知的認識(知識衝突の特定)を推論の前に促進する手法であるSelf-Segregateを提案する。
- 参考スコア(独自算出の注目度): 14.13848420860437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive reasoning capabilities in familiar contexts, but struggle when the context conflicts with their parametric knowledge. To investigate this phenomenon, we introduce CounterLogic, a dataset containing 1,800 examples across 9 logical schemas, explicitly designed to evaluate logical reasoning through counterfactual (hypothetical knowledge-conflicting) scenarios. Our systematic evaluation of 11 LLMs across 6 different datasets reveals a consistent performance degradation, with accuracies dropping by 27% on average when reasoning through counterfactual information. We propose Self-Segregate, a prompting method enabling metacognitive awareness (explicitly identifying knowledge conflicts) before reasoning. Our method dramatically narrows the average performance gaps from 27% to just 11%, while significantly increasing the overall accuracy (+7.5%). We discuss the implications of these findings and draw parallels to human cognitive processes, particularly on how humans disambiguate conflicting information during reasoning tasks. Our findings offer practical insights for understanding and enhancing LLMs reasoning capabilities in real-world applications, especially where models must logically reason independently of their factual knowledge.
- Abstract(参考訳): 大きな言語モデル(LLM)は、よく知られた文脈で印象的な推論能力を示すが、文脈がパラメトリックな知識と矛盾する場合に苦労する。
この現象を調べるために,9つの論理スキーマにまたがる1,800のサンプルを含むデータセットであるCounterLogicを紹介した。
6つの異なるデータセットにまたがる11個のLDMの系統的評価により、アキュラシーは反事実情報を通じて平均27%低下し、一貫した性能劣化が明らかとなった。
本稿では,メタ認知的認識(知識衝突の特定)を推論の前に促進する手法であるSelf-Segregateを提案する。
提案手法は, 平均性能ギャップを27%から11%に縮めるとともに, 全体的な精度を著しく向上させる(+7.5%)。
本研究は,人間の認知過程,特に人間が推論作業中にどのように矛盾する情報を曖昧にするかについて,これらの知見がもたらす影響について考察する。
本研究は実世界のアプリケーションにおいて,LLMの推論能力の理解と向上のための実践的な洞察を提供する。
関連論文リスト
- Unraveling Misinformation Propagation in LLM Reasoning [19.89817963822589]
大規模言語モデルの推論過程において,誤情報がどのように伝播するかを示す。
推論過程の早い段階で事実訂正を適用することは、誤情報伝達を効果的に減少させる。
我々の研究は誤情報伝達を緩和するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-24T06:45:45Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Is Knowledge All Large Language Models Needed for Causal Reasoning? [11.476877330365664]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。
本稿では,do-operativesを利用した新たな因果帰属モデルを提案する。
論文 参考訳(メタデータ) (2023-12-30T04:51:46Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。