論文の概要: Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning
- arxiv url: http://arxiv.org/abs/2402.14856v2
- Date: Mon, 3 Jun 2024 13:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 16:28:21.087449
- Title: Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning
- Title(参考訳): 帰納的推論における人間と大言語モデルの比較
- Authors: Philipp Mondorf, Barbara Plank,
- Abstract要約: 大規模言語モデル(LLM)では,人間の観察と類似した推論パターンが示される。
我々の研究は、モデルの構造と規模が、その好む推論方法に大きく影響していることを示します。
- 参考スコア(独自算出の注目度): 25.732397636695882
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deductive reasoning plays a pivotal role in the formulation of sound and cohesive arguments. It allows individuals to draw conclusions that logically follow, given the truth value of the information provided. Recent progress in the domain of large language models (LLMs) has showcased their capability in executing deductive reasoning tasks. Nonetheless, a significant portion of research primarily assesses the accuracy of LLMs in solving such tasks, often overlooking a deeper analysis of their reasoning behavior. In this study, we draw upon principles from cognitive psychology to examine inferential strategies employed by LLMs, through a detailed evaluation of their responses to propositional logic problems. Our findings indicate that LLMs display reasoning patterns akin to those observed in humans, including strategies like $\textit{supposition following}$ or $\textit{chain construction}$. Moreover, our research demonstrates that the architecture and scale of the model significantly affect its preferred method of reasoning, with more advanced models tending to adopt strategies more frequently than less sophisticated ones. Importantly, we assert that a model's accuracy, that is the correctness of its final conclusion, does not necessarily reflect the validity of its reasoning process. This distinction underscores the necessity for more nuanced evaluation procedures in the field.
- Abstract(参考訳): 帰納的推論は、音の定式化や結束的議論において重要な役割を果たす。
提供された情報の真の価値を考慮すれば、個人が論理的に従う結論を引き出すことができる。
大規模言語モデル(LLMs)の領域における最近の進歩は、帰納的推論タスクの実行能力を示している。
それにもかかわらず、研究のかなりの部分は、これらのタスクを解く際のLSMの精度を評価し、しばしばそれらの推論行動のより深い分析を見落としている。
本研究では,LLMが採用する推論戦略を考察するために,認知心理学の原理を基礎として,命題論理問題に対するその応答の詳細な評価を行う。
以上の結果から, LLMは, $\textit{supposition following}$ や $\textit{chain construction}$ など,人間と類似した推論パターンを示すことが明らかとなった。
さらに,本研究では,より高度なモデルでは,より洗練度の高いモデルよりも戦略を頻繁に採用する傾向にあるため,モデルのアーキテクチャと規模が,より望ましい推論方法に大きく影響することを示した。
重要なことに、最終的な結論の正しさであるモデルの精度は、必ずしもその推論過程の妥当性を反映していない。
この区別は、この分野においてより微妙な評価手順の必要性を浮き彫りにしている。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences [5.141416267381492]
我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。
思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。
以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-17T08:59:04Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey [25.732397636695882]
大規模言語モデル(LLM)は、最近、推論を含むタスクで顕著なパフォーマンスを示している。
これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。
論文 参考訳(メタデータ) (2024-04-02T11:46:31Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。