論文の概要: A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences
- arxiv url: http://arxiv.org/abs/2406.11341v2
- Date: Thu, 03 Oct 2024 08:07:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:30.053736
- Title: A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences
- Title(参考訳): ソフト共振器としての大規模言語モデルの体系的分析--ソロジカル推論の場合
- Authors: Leonardo Bertolazzi, Albert Gatt, Raffaella Bernardi,
- Abstract要約: 我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。
思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。
以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.141416267381492
- License:
- Abstract: The reasoning abilities of Large Language Models (LLMs) are becoming a central focus of study in NLP. In this paper, we consider the case of syllogistic reasoning, an area of deductive reasoning studied extensively in logic and cognitive psychology. Previous research has shown that pre-trained LLMs exhibit reasoning biases, such as $\textit{content effects}$, avoid answering that $\textit{no conclusion follows}$, display human-like difficulties, and struggle with multi-step reasoning. We contribute to this research line by systematically investigating the effects of chain-of-thought reasoning, in-context learning (ICL), and supervised fine-tuning (SFT) on syllogistic reasoning, considering syllogisms with conclusions that support or violate world knowledge, as well as ones with multiple premises. Crucially, we go beyond the standard focus on accuracy, with an in-depth analysis of the conclusions generated by the models. Our results suggest that the behavior of pre-trained LLMs can be explained by heuristics studied in cognitive science and that both ICL and SFT improve model performance on valid inferences, although only the latter mitigates most reasoning biases without harming model consistency.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は、NLPにおける研究の中心となっている。
本稿では,論理学および認知心理学において広く研究されている演能的推論の領域であるシロメトリクス推論の事例について考察する。
以前の研究では、事前学習されたLLMは、$\textit{content effect}$のような推論バイアスを示し、$\textit{no conclusion following}$, display human-like difficulties, and hard with multi-step reasoningといった答えを避けている。
本研究は,世界知識を支持したり違反したりする結論を伴うシロジズムや,複数の前提を持つシロジズムを考慮し,シロジズム的推論に対する連鎖推論,文脈内学習(ICL),教師付き微調整(SFT)の効果を体系的に研究することによって,この研究ラインに貢献する。
重要なことは、モデルが生成した結論を詳細に分析することで、精度に重点を置いている。
以上の結果から,認知科学のヒューリスティックスによって事前学習したLLMの挙動を説明でき,ICLとSFTはモデル一貫性を損なうことなくモデル性能を改善することができるが,後者のみがモデル一貫性を損なうことなく,ほとんどの推論バイアスを緩和することがわかった。
関連論文リスト
- Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - Exploring Reasoning Biases in Large Language Models Through Syllogism: Insights from the NeuBAROCO Dataset [5.695579108997392]
本稿では,現在の大規模言語モデルが自然言語の論理的推論をどの程度正確に行うか,という問題について考察する。
我々は,英語と日本語のシロジズム推論問題からなるNeuBAROCOというシロジズムデータセットを提案する。
大きな言語モデルを用いた我々の実験は、これらのモデルが、他のエラー傾向とともに、人間に類似した推論バイアスを示すことを示している。
論文 参考訳(メタデータ) (2024-08-08T12:10:50Z) - Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.571419297164645]
本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。
まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。
次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文 参考訳(メタデータ) (2024-06-26T21:17:20Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey [25.732397636695882]
大規模言語モデル(LLM)は、最近、推論を含むタスクで顕著なパフォーマンスを示している。
これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。
論文 参考訳(メタデータ) (2024-04-02T11:46:31Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
CoT(Chain-of-Thought)は,Large Language Models(LLMs)から推論能力を引き出すための,有望なテクニックとして登場した。
本稿では,LLMの推論過程を人間と比較することにより,その基盤となるメカニズムを診断する。
実験により, LLMは因果連鎖から逸脱することが多く, 相関関係や潜在的な整合性誤差が生じることが判明した。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning [25.732397636695882]
大規模言語モデル(LLM)では,人間の観察と類似した推論パターンが示される。
我々の研究は、モデルの構造と規模が、その好む推論方法に大きく影響していることを示します。
論文 参考訳(メタデータ) (2024-02-20T12:58:14Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。