論文の概要: SuperARC: A Test for General and Super Intelligence Based on First Principles of Recursion Theory and Algorithmic Probability
- arxiv url: http://arxiv.org/abs/2503.16743v1
- Date: Thu, 20 Mar 2025 23:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:55:28.353739
- Title: SuperARC: A Test for General and Super Intelligence Based on First Principles of Recursion Theory and Algorithmic Probability
- Title(参考訳): SuperARC: 再帰理論とアルゴリズム確率の第一原理に基づく汎用超知能テスト
- Authors: Alberto Hernández-Espinosa, Luan Ozelim, Felipe S. Abrahão, Hector Zenil,
- Abstract要約: ベンチマークの汚染を避けるためにアルゴリズムの確率で実験を行った。
テストの課題は、基本的な性質の知性に関する側面である。
定義されたインテリジェンスレベルへの収束の明確な証拠はない。
- 参考スコア(独自算出の注目度): 0.14061979259370275
- License:
- Abstract: We introduce an open-ended test grounded in algorithmic probability that can avoid benchmark contamination in the quantitative evaluation of frontier models in the context of their Artificial General Intelligence (AGI) and Superintelligence (ASI) claims. Unlike other tests, this test does not rely on statistical compression methods (such as GZIP or LZW), which are more closely related to Shannon entropy than to Kolmogorov complexity. The test challenges aspects related to features of intelligence of fundamental nature such as synthesis and model creation in the context of inverse problems (generating new knowledge from observation). We argue that metrics based on model abstraction and optimal Bayesian inference for planning can provide a robust framework for testing intelligence, including natural intelligence (human and animal), narrow AI, AGI, and ASI. Our results show no clear evidence of LLM convergence towards a defined level of intelligence, particularly AGI or ASI. We found that LLM model versions tend to be fragile and incremental, as new versions may perform worse than older ones, with progress largely driven by the size of training data. The results were compared with a hybrid neurosymbolic approach that theoretically guarantees model convergence from optimal inference based on the principles of algorithmic probability and Kolmogorov complexity. The method outperforms LLMs in a proof-of-concept on short binary sequences. Our findings confirm suspicions regarding the fundamental limitations of LLMs, exposing them as systems optimised for the perception of mastery over human language. Progress among different LLM versions from the same developers was found to be inconsistent and limited, particularly in the absence of a solid symbolic counterpart.
- Abstract(参考訳): 本稿では,AI(Artificial General Intelligence, AGI)とスーパーインテリジェンス(Superintelligence, ASI)の主張の文脈におけるフロンティアモデルの定量的評価において,ベンチマーク汚染を回避できるアルゴリズム確率に基づくオープンエンドテストを導入する。
他の試験とは異なり、この試験は統計圧縮法(GZIPやLZWなど)に依存しないが、これはコルモゴロフ複雑性よりもシャノンエントロピーと密接に関係している。
このテストは、逆問題(観察から新しい知識を生成する)の文脈において、合成やモデル生成のような基本的な性質の知能の特徴に関連する側面に挑戦する。
モデル抽象化と計画のための最適なベイズ推論に基づくメトリクスは、自然知性(人間と動物)、狭いAI、AI、AI、AIIを含む、インテリジェンスをテストするための堅牢なフレームワークを提供することができる、と我々は主張する。
以上の結果から, LLM の知能レベル, 特に AGI や ASI への収束の明確な証拠は得られなかった。
LLMモデルのバージョンは、新しいバージョンが古いバージョンよりもパフォーマンスが悪くなり、トレーニングデータのサイズによって大きく進歩しているため、脆弱で漸進的な傾向にあることがわかった。
結果は、アルゴリズム確率とコルモゴロフ複雑性の原理に基づく最適推論からモデル収束を理論的に保証するハイブリッドなニューロシンボリックアプローチと比較された。
この方法は、短いバイナリシーケンスにおける概念実証においてLLMよりも優れる。
本研究は,LLMの基本的限界について疑念を呈し,人間の言語に対する熟知の認識に最適化されたシステムとして明らかにした。
同じ開発者による異なるLLMバージョン間の進歩は一貫性がなく制限されていることが判明した。
関連論文リスト
- Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Over the Edge of Chaos? Excess Complexity as a Roadblock to Artificial General Intelligence [4.901955678857442]
我々は、AIの性能が臨界複雑性しきい値を超えると不安定になるかもしれない複雑なシステムにおける位相遷移に類似した臨界点の存在を仮定した。
我々のシミュレーションは、AIシステムの複雑さの増加が、より高い臨界閾値を超え、予測不可能なパフォーマンス行動を引き起こすことを実証した。
論文 参考訳(メタデータ) (2024-07-04T05:46:39Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - SynthTree: Co-supervised Local Model Synthesis for Explainable Prediction [15.832975722301011]
本稿では,最小限の精度で説明可能性を向上させる手法を提案する。
我々は,AI技術を利用してノードを推定する新しい手法を開発した。
我々の研究は、統計的方法論が説明可能なAIを前進させる上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-16T14:43:01Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Joint Stochastic Approximation and Its Application to Learning Discrete
Latent Variable Models [19.07718284287928]
推定モデルに対する信頼度勾配を得るのが困難であることや、間接的にターゲットのログを最適化することの欠点を優雅に解決できることが示される。
本稿では,対象の対数類似度を直接最大化し,後部モデルと推論モデルとの包摂的ばらつきを同時に最小化することを提案する。
結果の学習アルゴリズムは、ジョイントSA(JSA)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-28T13:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。