論文の概要: Human-Level Reasoning: A Comparative Study of Large Language Models on Logical and Abstract Reasoning
- arxiv url: http://arxiv.org/abs/2510.24435v1
- Date: Tue, 28 Oct 2025 14:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.214863
- Title: Human-Level Reasoning: A Comparative Study of Large Language Models on Logical and Abstract Reasoning
- Title(参考訳): ヒューマンレベル推論:論理的および抽象的推論における大規模言語モデルの比較研究
- Authors: Benjamin Grando Moreira,
- Abstract要約: 本研究では,Large Language Models (LLM) の論理的および抽象的推論スキルを8つのカスタム設計の推論質問を用いて比較した。
結果は、同じタスクにおける人間のパフォーマンスに対してベンチマークされ、大きな違いと、LLMが推論に苦しむ領域を示す。
- 参考スコア(独自算出の注目度): 2.430913933033485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating reasoning ability in Large Language Models (LLMs) is important for advancing artificial intelligence, as it transcends mere linguistic task performance. It involves understanding whether these models truly understand information, perform inferences, and are able to draw conclusions in a logical and valid way. This study compare logical and abstract reasoning skills of several LLMs - including GPT, Claude, DeepSeek, Gemini, Grok, Llama, Mistral, Perplexity, and Sabi\'a - using a set of eight custom-designed reasoning questions. The LLM results are benchmarked against human performance on the same tasks, revealing significant differences and indicating areas where LLMs struggle with deduction.
- Abstract(参考訳): 大規模言語モデル(LLM)における推論能力の評価は、単なる言語タスクのパフォーマンスを超越するため、人工知能の進歩に重要である。
これらのモデルが真に情報を理解し、推論を実行し、論理的かつ有効な方法で結論を引き出すことができるかどうかを理解する必要がある。
この研究は、GPT、Claude、DeepSeek、Gemini、Grok、Llama、Mistral、Perplexity、Sabi\'aなど、いくつかのLLMの論理的および抽象的推論スキルを8つのカスタム設計の推論質問を用いて比較した。
LLMの結果は、同じタスクにおける人間のパフォーマンスに対してベンチマークされ、大きな違いと、LLMが推論に苦しむ領域を示す。
関連論文リスト
- JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Meaningful Learning: Enhancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
LLMは、一貫した正確な答えを提供するために、一般的な事実を抽象化し、適用するのに苦労することが多い。
このことが、LSMが真に推論しているのか、単に記憶しているだけなのか、という激しい議論を巻き起こした。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。