論文の概要: Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2506.02648v1
- Date: Tue, 03 Jun 2025 09:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.502193
- Title: Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation
- Title(参考訳): 動的推論評価による大規模言語モデルの流体知能の真正評価
- Authors: Yue Yang, MingKang Chen, Qihua Liu, Mengkang Hu, Qiguang Chen, Gengrui Zhang, Shuyue Hu, Guangtao Zhai, Yu Qiao, Yu Wang, Wenqi Shao, Ping Luo,
- Abstract要約: 大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
- 参考スコア(独自算出の注目度): 75.26829371493189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated impressive reasoning capacities that mirror human-like thinking. However, whether LLMs possess genuine fluid intelligence (i.e., the ability to reason abstractly and generalize rules in novel situations) remains an open question. Existing reasoning benchmarks either focus on domain-specific knowledge (crystallized intelligence) or lack interpretability. To address these limitations, we propose DRE-Bench, a dynamic reasoning evaluation benchmark grounded in a hierarchical cognitive framework. DRE-Bench consists of 36 abstract reasoning tasks organized across four cognitive levels, with each task featuring multiple dynamic variants that test the same underlying latent rule. This design enables fine-grained, interpretable, and reliable assessments of fluid intelligence. We evaluate a range of state-of-the-art LLMs, including both general LLMs (GPT-4o, Claude 3.7) and reasoning LLMs (o1, DeepSeek-R1, QwQ, Skywork-OR1). Experimental results reveal that although most LLMs achieve competent and robust performance in low-level cognition, they struggle with high-level cognition and exhibit limited generalization as task complexity grows. Our findings highlight the gap between current LLMs and true human-like fluid intelligence and offer a new path for systematically tracking reasoning progress in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、人間のような思考を反映する印象的な推論能力を示している。
しかし、LLMが真の流体知能を持っているかどうか(すなわち、新しい状況下で規則を抽象的に推論し、一般化する能力)は未解決の問題である。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
これらの制約に対処するため,階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
DRE-Benchは、4つの認知レベルにまたがって構成された36の抽象的推論タスクで構成され、各タスクは複数の動的変種を持ち、基礎となる潜伏規則をテストする。
この設計により、流体知能のきめ細かな、解釈可能な、信頼性の高い評価が可能になる。
我々は,汎用LLM(GPT-4o,Claude 3.7)と推論LLM(o1,DeepSeek-R1,QwQ,Skywork-OR1)を含む,最先端LLMの評価を行った。
実験結果から,ほとんどのLLMは低レベル認知において有能で頑健な性能を達成しているが,高いレベルの認知に苦慮し,タスクの複雑さが増大するにつれて限定的な一般化を示すことが明らかとなった。
本研究は,現在のLSMと真のヒト様流体知能のギャップを浮き彫りにして,LSMにおける推論の進行を体系的に追跡する新たな経路を提供するものである。
関連論文リスト
- Generative Evaluation of Complex Reasoning in Large Language Models [39.195491367590485]
大規模言語モデル(LLM)における推論評価に特化して設計された生成的評価フレームワークであるKUMOを紹介する。
自動パイプラインを通じて、KUMOは、超人記憶よりも真の一般化を示すために、オープンエンドドメインにまたがる新しいタスクを連続的に生成する。
我々は、KUMOが作成した100のドメインにまたがる5000のタスクに対して、23の最先端LCMを評価し、大学生に対する推論能力をベンチマークした。
論文 参考訳(メタデータ) (2025-04-03T17:54:18Z) - Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task [71.61879949813998]
認知研究において、後者の能力は流体インテリジェンスと呼ばれ、人間のインテリジェンスを評価するために重要であると考えられている。
流体インテリジェンス評価に関する最近の研究は、LLMの能力に重大な欠陥を浮き彫りにした。
本研究は,既存のLSMにおいて,スキル構成能力の制限,抽象的な入力形式に慣れていないこと,左から右への復号化の本質的欠如の3つの大きな限界を明らかにした。
論文 参考訳(メタデータ) (2025-02-11T02:31:09Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。
MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。