論文の概要: Evolutionary System 2 Reasoning: An Empirical Proof
- arxiv url: http://arxiv.org/abs/2512.05760v1
- Date: Fri, 05 Dec 2025 14:47:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.065124
- Title: Evolutionary System 2 Reasoning: An Empirical Proof
- Title(参考訳): 進化的システム2:実証的証明
- Authors: Zeyuan Ma, Wenqi Huang, Guo-Huan Song, Hongshu Guo, Sijie Ma, Zhiguang Cao, Yue-Jiao Gong,
- Abstract要約: 本稿では,強力な推論能力を持つ個人を探索するための進化的推論最適化(ERO)フレームワークを提案する。
代表的なテストスーツの実験に基づいて、2つの驚くべき経験的発見を主張する。
- 参考スコア(独自算出の注目度): 36.11770491397399
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine intelligence marks the ultimate dream of making machines' intelligence comparable to human beings. While recent progress in Large Language Models (LLMs) show substantial specific skills for a wide array of downstream tasks, they more or less fall shorts in general intelligence. Following correlation between intelligence and system 2 reasoning (slow thinking), in this paper, we aim to answering a worthwhile research question: could machine intelligence such as LLMs be evolved to acquire reasoning ability (not specific skill) just like our human beings? To this end, we propose evolutionary reasoning optimization (ERO) framework which performs survival of the fittest over a population of LLMs to search for individual with strong reasoning ability. Given a reasoning task, ERO first initializes multiple LLMs as a population, after which an evolutionary strategy evolves the population to maximize quantified reasoning score of the best individual. Based on experiments on representative testsuites, we claim two surprising empirical discoveries: i) the latest LLMs such as GPT-5 still show limited system 2 reasoning ability; ii) with simple evolution-loop of ERO, a relatively weak model (Qwen-7B) could be enhanced to emerge powerful reasoning ability. Our project can be accessed at https://github.com/MetaEvo/ERO for reproduction needs.
- Abstract(参考訳): マシンインテリジェンスは、マシンのインテリジェンスを人間に匹敵する究極の夢だ。
近年のLarge Language Models (LLM) の進歩は、幅広い下流タスクにおいて、かなり具体的なスキルを示しているが、一般的な知性では、多かれ少なかれ短命である。
インテリジェンスとシステム2推論(スロー思考)の相関に従えば、LLMのようなマシンインテリジェンスを進化させて、人間のように推論能力(特定のスキルではない)を得ることができるのか?
そこで本研究では,LLM の個体群に対する適合性評価を継続し,高い推論能力を持つ個体を探索する進化的推論最適化(ERO)フレームワークを提案する。
推論タスクが与えられた後、EROはまず複数のLSMを個体群として初期化し、その後、進化戦略によって個体群を進化させ、最高の個体の定量化推論スコアを最大化する。
代表的なテストスーツの実験に基づいて、2つの驚くべき経験的発見を主張する。
一 GPT-5 のような最新の LLM は、なおもシステム2の推論能力に限界がある。
二 比較的弱いモデル(Qwen-7B)をEROの単純な進化ループで拡張し、強力な推論能力を得ることができた。
私たちのプロジェクトは、再生のためにhttps://github.com/MetaEvo/EROでアクセスできます。
関連論文リスト
- To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - Multi-Agent Evolve: LLM Self-Improve through Co-evolution [53.00458074754831]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を証明している。
近年のSelf-Play RL法は,ゲームやGoのパラダイムの成功に触発されて,人間に注釈を付けることなくLSM推論能力を向上することを目指している。
数学,推論,一般知識Q&Aなど多種多様な課題の解決において,LLMが自己発展できるフレームワークであるMulti-Agent Evolve(MAE)を提案する。
論文 参考訳(メタデータ) (2025-10-27T17:58:02Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - P: A Universal Measure of Predictive Intelligence [0.0]
AIシステムが持つとされる知性について、一般的に合意されている定義はない。
人間、動物、AIの知能を1つの比率で比較できるような実践的な尺度は、誰も開発していません。
本稿では,予測が知能の最も重要な構成要素であるという仮説に基づく,新たな普遍的な知能尺度を提案する。
論文 参考訳(メタデータ) (2025-05-30T10:05:54Z) - Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。
両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。
マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文 参考訳(メタデータ) (2025-05-16T11:41:19Z) - From System 1 to System 2: A Survey of Reasoning Large Language Models [72.87412996793957]
基礎的な大規模言語モデルは、迅速な意思決定では優れているが、複雑な推論には深みがない。
OpenAIのo1/o3とDeepSeekのR1は、数学やコーディングといった分野のエキスパートレベルのパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-02-24T18:50:52Z) - Giving AI Personalities Leads to More Human-Like Reasoning [7.124736158080938]
我々は,人間集団の多様な推論行動を模倣するAIの可能性について検討する。
自然言語推論(NLI)フォーマットを新たに一般化した推論タスクを設計した。
我々は、人格特性を反映したAI応答を誘発するために、ビッグファイブのパーソナリティモデルにインスパイアされたパーソナリティベースのプロンプトを用いた。
論文 参考訳(メタデータ) (2025-02-19T23:51:23Z) - Smart Vision-Language Reasoners [0.0]
視覚言語モデル(VLM)を推論として検討する。
抽象化を形成する能力は、数学的推論、問題解決、その他のMath AIタスクの根底にある。
SMARTタスクで与えられた抽象概念を8軸のメタ推論と問題解決のスキルとして採用する。
論文 参考訳(メタデータ) (2024-07-05T01:47:21Z) - Inductive Biases for Deep Learning of Higher-Level Cognition [108.89281493851358]
興味深い仮説は、人間と動物の知性はいくつかの原則によって説明できるということである。
この研究は、主に高いレベルとシーケンシャルな意識的処理に関心のある人を中心に、より大きなリストを考察する。
これらの特定の原則を明確にする目的は、人間の能力から恩恵を受けるAIシステムを構築するのに役立つ可能性があることである。
論文 参考訳(メタデータ) (2020-11-30T18:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。