論文の概要: A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences
- arxiv url: http://arxiv.org/abs/2406.11341v3
- Date: Thu, 17 Oct 2024 15:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:34.434133
- Title: A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences
- Title(参考訳): ソフト共振器としての大規模言語モデルの体系的分析--ソロジカル推論の場合
- Authors: Leonardo Bertolazzi, Albert Gatt, Raffaella Bernardi,
- Abstract要約: 我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。
思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。
以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.141416267381492
- License:
- Abstract: The reasoning abilities of Large Language Models (LLMs) are becoming a central focus of study in NLP. In this paper, we consider the case of syllogistic reasoning, an area of deductive reasoning studied extensively in logic and cognitive psychology. Previous research has shown that pre-trained LLMs exhibit reasoning biases, such as $\textit{content effects}$, avoid answering that $\textit{no conclusion follows}$, display human-like difficulties, and struggle with multi-step reasoning. We contribute to this research line by systematically investigating the effects of chain-of-thought reasoning, in-context learning (ICL), and supervised fine-tuning (SFT) on syllogistic reasoning, considering syllogisms with conclusions that support or violate world knowledge, as well as ones with multiple premises. Crucially, we go beyond the standard focus on accuracy, with an in-depth analysis of the conclusions generated by the models. Our results suggest that the behavior of pre-trained LLMs can be explained by heuristics studied in cognitive science and that both ICL and SFT improve model performance on valid inferences, although only the latter mitigates most reasoning biases without harming model consistency.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は、NLPにおける研究の中心となっている。
本稿では,論理学および認知心理学において広く研究されている演能的推論の領域であるシロメトリクス推論の事例について考察する。
以前の研究では、事前学習されたLLMは、$\textit{content effect}$のような推論バイアスを示し、$\textit{no conclusion following}$, display human-like difficulties, and hard with multi-step reasoningといった答えを避けている。
本研究は,世界知識を支持したり違反したりする結論を伴うシロジズムや,複数の前提を持つシロジズムを考慮し,シロジズム的推論に対する連鎖推論,文脈内学習(ICL),教師付き微調整(SFT)の効果を体系的に研究することによって,この研究ラインに貢献する。
重要なことは、モデルが生成した結論を詳細に分析することで、精度に重点を置いている。
以上の結果から,認知科学のヒューリスティックスによって事前学習したLLMの挙動を説明でき,ICLとSFTはモデル一貫性を損なうことなくモデル性能を改善することができるが,後者のみがモデル一貫性を損なうことなく,ほとんどの推論バイアスを緩和することがわかった。
関連論文リスト
- LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。
帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。
仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Logical Reasoning in Large Language Models: A Survey [17.06712393613964]
大規模言語モデル(LLM)における論理的推論の最近の進歩を合成する。
LLMにおける論理的推論の範囲、理論的基礎、および推論の習熟度を評価するために使用されるベンチマークについて概説する。
このレビューは、AIシステムにおける論理的推論を強化するためのさらなる調査の必要性を強調し、今後の方向性を結論付けている。
論文 参考訳(メタデータ) (2025-02-13T09:19:14Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Exploring Reasoning Biases in Large Language Models Through Syllogism: Insights from the NeuBAROCO Dataset [5.695579108997392]
本稿では,現在の大規模言語モデルが自然言語の論理的推論をどの程度正確に行うか,という問題について考察する。
我々は,英語と日本語のシロジズム推論問題からなるNeuBAROCOというシロジズムデータセットを提案する。
大きな言語モデルを用いた我々の実験は、これらのモデルが、他のエラー傾向とともに、人間に類似した推論バイアスを示すことを示している。
論文 参考訳(メタデータ) (2024-08-08T12:10:50Z) - Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.571419297164645]
本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。
まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。
次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文 参考訳(メタデータ) (2024-06-26T21:17:20Z) - Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning [25.732397636695882]
大規模言語モデル(LLM)では,人間の観察と類似した推論パターンが示される。
我々の研究は、モデルの構造と規模が、その好む推論方法に大きく影響していることを示します。
論文 参考訳(メタデータ) (2024-02-20T12:58:14Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。