論文の概要: SuperARC: A Test for General and Super Intelligence Based on First Principles of Recursion Theory and Algorithmic Probability
- arxiv url: http://arxiv.org/abs/2503.16743v1
- Date: Thu, 20 Mar 2025 23:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 15:40:10.22662
- Title: SuperARC: A Test for General and Super Intelligence Based on First Principles of Recursion Theory and Algorithmic Probability
- Title(参考訳): SuperARC: 再帰理論とアルゴリズム確率の第一原理に基づく汎用超知能テスト
- Authors: Alberto Hernández-Espinosa, Luan Ozelim, Felipe S. Abrahão, Hector Zenil,
- Abstract要約: ベンチマークの汚染を避けるためにアルゴリズムの確率で実験を行った。
テストの課題は、基本的な性質の知性に関する側面である。
定義されたインテリジェンスレベルへの収束の明確な証拠はない。
- 参考スコア(独自算出の注目度): 0.14061979259370275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce an open-ended test grounded in algorithmic probability that can avoid benchmark contamination in the quantitative evaluation of frontier models in the context of their Artificial General Intelligence (AGI) and Superintelligence (ASI) claims. Unlike other tests, this test does not rely on statistical compression methods (such as GZIP or LZW), which are more closely related to Shannon entropy than to Kolmogorov complexity. The test challenges aspects related to features of intelligence of fundamental nature such as synthesis and model creation in the context of inverse problems (generating new knowledge from observation). We argue that metrics based on model abstraction and optimal Bayesian inference for planning can provide a robust framework for testing intelligence, including natural intelligence (human and animal), narrow AI, AGI, and ASI. Our results show no clear evidence of LLM convergence towards a defined level of intelligence, particularly AGI or ASI. We found that LLM model versions tend to be fragile and incremental, as new versions may perform worse than older ones, with progress largely driven by the size of training data. The results were compared with a hybrid neurosymbolic approach that theoretically guarantees model convergence from optimal inference based on the principles of algorithmic probability and Kolmogorov complexity. The method outperforms LLMs in a proof-of-concept on short binary sequences. Our findings confirm suspicions regarding the fundamental limitations of LLMs, exposing them as systems optimised for the perception of mastery over human language. Progress among different LLM versions from the same developers was found to be inconsistent and limited, particularly in the absence of a solid symbolic counterpart.
- Abstract(参考訳): 本稿では,AI(Artificial General Intelligence, AGI)とスーパーインテリジェンス(Superintelligence, ASI)の主張の文脈におけるフロンティアモデルの定量的評価において,ベンチマーク汚染を回避できるアルゴリズム確率に基づくオープンエンドテストを導入する。
他の試験とは異なり、この試験は統計圧縮法(GZIPやLZWなど)に依存しないが、これはコルモゴロフ複雑性よりもシャノンエントロピーと密接に関係している。
このテストは、逆問題(観察から新しい知識を生成する)の文脈において、合成やモデル生成のような基本的な性質の知能の特徴に関連する側面に挑戦する。
モデル抽象化と計画のための最適なベイズ推論に基づくメトリクスは、自然知性(人間と動物)、狭いAI、AI、AI、AIIを含む、インテリジェンスをテストするための堅牢なフレームワークを提供することができる、と我々は主張する。
以上の結果から, LLM の知能レベル, 特に AGI や ASI への収束の明確な証拠は得られなかった。
LLMモデルのバージョンは、新しいバージョンが古いバージョンよりもパフォーマンスが悪くなり、トレーニングデータのサイズによって大きく進歩しているため、脆弱で漸進的な傾向にあることがわかった。
結果は、アルゴリズム確率とコルモゴロフ複雑性の原理に基づく最適推論からモデル収束を理論的に保証するハイブリッドなニューロシンボリックアプローチと比較された。
この方法は、短いバイナリシーケンスにおける概念実証においてLLMよりも優れる。
本研究は,LLMの基本的限界について疑念を呈し,人間の言語に対する熟知の認識に最適化されたシステムとして明らかにした。
同じ開発者による異なるLLMバージョン間の進歩は一貫性がなく制限されていることが判明した。
関連論文リスト
- Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
大規模言語モデルのテスト時間計算のための2つの原理的アルゴリズムを提案する。
理論的には、1つのアルゴリズムの故障確率は、そのテスト時間計算が大きくなるにつれて指数関数的に減衰する。
論文 参考訳(メタデータ) (2024-11-29T05:29:47Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Over the Edge of Chaos? Excess Complexity as a Roadblock to Artificial General Intelligence [4.901955678857442]
我々は、AIの性能が臨界複雑性しきい値を超えると不安定になるかもしれない複雑なシステムにおける位相遷移に類似した臨界点の存在を仮定した。
我々のシミュレーションは、AIシステムの複雑さの増加が、より高い臨界閾値を超え、予測不可能なパフォーマンス行動を引き起こすことを実証した。
論文 参考訳(メタデータ) (2024-07-04T05:46:39Z) - SynthTree: Co-supervised Local Model Synthesis for Explainable Prediction [15.832975722301011]
本稿では,最小限の精度で説明可能性を向上させる手法を提案する。
我々は,AI技術を利用してノードを推定する新しい手法を開発した。
我々の研究は、統計的方法論が説明可能なAIを前進させる上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-16T14:43:01Z) - Precise Error Rates for Computationally Efficient Testing [67.30044609837749]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Learnability, Sample Complexity, and Hypothesis Class Complexity for
Regression Models [10.66048003460524]
この研究はPACの基礎に触発され、既存の回帰学習問題に動機付けられている。
提案手法はEpsilon-Confidence Aough Correct (epsilon CoAC)で示され、Kullback Leibler divergence(相対エントロピー)を利用する。
これにより、学習者は異なる複雑性順序の仮説クラスを比較でき、それらの中から最小のエプシロンを最適に選択できる。
論文 参考訳(メタデータ) (2023-03-28T15:59:12Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - Parsimonious Inference [0.0]
parsimonious inferenceは任意のアーキテクチャ上の推論の情報理論的な定式化である。
提案手法は,効率的な符号化と巧妙なサンプリング戦略を組み合わせて,クロスバリデーションを伴わない予測アンサンブルを構築する。
論文 参考訳(メタデータ) (2021-03-03T04:13:14Z) - Learning Reasoning Strategies in End-to-End Differentiable Proving [50.9791149533921]
条件付き定理プローバーは勾配に基づく最適化により最適規則選択戦略を学習する。
条件付き定理プローサは拡張性があり、CLUTRRデータセット上で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-13T16:22:14Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。