Fugu-MT 論文翻訳(概要): Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning

論文の概要: Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning

arxiv url: http://arxiv.org/abs/2402.14856v1
Date: Tue, 20 Feb 2024 12:58:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-03 19:29:06.937457
Title: Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning
Title（参考訳）: 推論推論における人間の推論戦略と大規模言語モデルの比較
Authors: Philipp Mondorf and Barbara Plank
Abstract要約: 大規模言語モデル(LLM)では,人間の観察と類似した推論パターンが示される。我々の研究は、モデルの構造と規模が、その好む推論方法に大きく影響していることを示します。
参考スコア（独自算出の注目度）: 30.399418995991585
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Deductive reasoning plays a pivotal role in the formulation of sound and cohesive arguments. It allows individuals to draw conclusions that logically follow, given the truth value of the information provided. Recent progress in the domain of large language models (LLMs) has showcased their capability in executing deductive reasoning tasks. Nonetheless, a significant portion of research primarily assesses the accuracy of LLMs in solving such tasks, often overlooking a deeper analysis of their reasoning behavior. In this study, we draw upon principles from cognitive psychology to examine inferential strategies employed by LLMs, through a detailed evaluation of their responses to propositional logic problems. Our findings indicate that LLMs display reasoning patterns akin to those observed in humans, including strategies like $\textit{supposition following}$ or $\textit{chain construction}$. Moreover, our research demonstrates that the architecture and scale of the model significantly affect its preferred method of reasoning, with more advanced models tending to adopt strategies more frequently than less sophisticated ones. Importantly, we assert that a model's accuracy, that is the correctness of its final conclusion, does not necessarily reflect the validity of its reasoning process. This distinction underscores the necessity for more nuanced evaluation procedures in the field.
Abstract（参考訳）: 帰納的推論は、音論と結合論の定式化において重要な役割を果たす。提供された情報の真理値を考えると、個人は論理的に従う結論を導き出すことができる。大規模言語モデル(LLMs)の領域における最近の進歩は、帰納的推論タスクの実行能力を示している。それにもかかわらず、研究のかなりの部分は、これらのタスクを解く際のLSMの精度を評価し、しばしばそれらの推論行動のより深い分析を見落としている。本研究では,提案的論理問題に対する応答の詳細な評価を通して,llmが採用する推論戦略を検討するための認知心理学の原理を考察する。以上の結果から, LLMは, $\textit{supposition following}$ や $\textit{chain construction}$ など,人間と類似した推論パターンを示すことが明らかとなった。さらに,本研究は,より高度なモデルがより洗練されていないモデルよりも戦略を頻繁に採用する傾向にあり,モデルのアーキテクチャとスケールが,その望ましい推論方法に大きく影響することを示した。重要なことに、最終的な結論の正しさであるモデルの精度は、必ずしもその推論過程の妥当性を反映していない。この区別は、この分野におけるより微妙な評価手順の必要性を強調する。

関連論文リスト

How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。推論を原子核スキルに分解する新しいベンチマークを導入する。 SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文参考訳（メタデータ） (2025-12-30T08:16:20Z)
On the Eligibility of LLMs for Counterfactual Reasoning: A Decompositional Study [15.617243755155686]
対物推論は、大規模言語モデルの推論能力を一般化するための重要な手法として現れてきた。本稿では, 因果関係の構築から, 逆因果関係の介入に対する推論まで, 逆因果関係の生成を分解する分解戦略を提案する。
論文参考訳（メタデータ） (2025-05-17T04:59:32Z)
LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文参考訳（メタデータ） (2025-02-16T15:54:53Z)
Logical Reasoning in Large Language Models: A Survey [17.06712393613964]
大規模言語モデル(LLM)における論理的推論の最近の進歩を合成する。 LLMにおける論理的推論の範囲、理論的基礎、および推論の習熟度を評価するために使用されるベンチマークについて概説する。このレビューは、AIシステムにおける論理的推論を強化するためのさらなる調査の必要性を強調し、今後の方向性を結論付けている。
論文参考訳（メタデータ） (2025-02-13T09:19:14Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences [5.141416267381492]
我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
論文参考訳（メタデータ） (2024-06-17T08:59:04Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey [25.732397636695882]
大規模言語モデル(LLM)は、最近、推論を含むタスクで顕著なパフォーマンスを示している。これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。
論文参考訳（メタデータ） (2024-04-02T11:46:31Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
From Heuristic to Analytic: Cognitively Motivated Strategies for Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文参考訳（メタデータ） (2023-10-24T19:46:04Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。