Fugu-MT 論文翻訳(概要): SuperARC: An Agnostic Test for Narrow, General, and Super Intelligence Based On the Principles of Recursive Compression and Algorithmic Probability

論文の概要: SuperARC: An Agnostic Test for Narrow, General, and Super Intelligence Based On the Principles of Recursive Compression and Algorithmic Probability

arxiv url: http://arxiv.org/abs/2503.16743v2
Date: Tue, 15 Apr 2025 22:36:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 00:37:47.477793
Title: SuperARC: An Agnostic Test for Narrow, General, and Super Intelligence Based On the Principles of Recursive Compression and Algorithmic Probability
Title（参考訳）: SuperARC: 再帰圧縮の原理とアルゴリズム的確率に基づく狭義、汎用、超知能の非依存テスト
Authors: Alberto Hernández-Espinosa, Luan Ozelim, Felipe S. Abrahão, Hector Zenil,
Abstract要約: アルゴリズムの確率を基礎としたオープンエンドテストを導入する。これはフロンティアモデルの定量的評価においてベンチマーク汚染を避けることができる。圧縮はシステムの予測力と等価であり、直接的に比例することを示す。
参考スコア（独自算出の注目度）: 0.14061979259370275
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce an open-ended test grounded in algorithmic probability that can avoid benchmark contamination in the quantitative evaluation of frontier models in the context of their Artificial General Intelligence (AGI) and Superintelligence (ASI) claims. Unlike other tests, this test does not rely on statistical compression methods (such as GZIP or LZW), which are more closely related to Shannon entropy than to Kolmogorov complexity and are not able to test beyond simple pattern matching. The test challenges aspects of AI, in particular LLMs, related to features of intelligence of fundamental nature such as synthesis and model creation in the context of inverse problems (generating new knowledge from observation). We argue that metrics based on model abstraction and abduction (optimal Bayesian `inference') for predictive `planning' can provide a robust framework for testing intelligence, including natural intelligence (human and animal), narrow AI, AGI, and ASI. We found that LLM model versions tend to be fragile and incremental as a result of memorisation only with progress likely driven by the size of training data. The results were compared with a hybrid neurosymbolic approach that theoretically guarantees universal intelligence based on the principles of algorithmic probability and Kolmogorov complexity. The method outperforms LLMs in a proof-of-concept on short binary sequences. We prove that compression is equivalent and directly proportional to a system's predictive power and vice versa. That is, if a system can better predict it can better compress, and if it can better compress, then it can better predict. Our findings strengthen the suspicion regarding the fundamental limitations of LLMs, exposing them as systems optimised for the perception of mastery over human language.
Abstract（参考訳）: 本稿では,AI(Artificial General Intelligence, AGI)とスーパーインテリジェンス(Superintelligence, ASI)の主張の文脈におけるフロンティアモデルの定量的評価において,ベンチマーク汚染を回避できるアルゴリズム確率に基づくオープンエンドテストを導入する。他のテストとは異なり、このテストは統計圧縮法(GZIPやLZWなど)に依存しておらず、これはコルモゴロフ複雑性よりもシャノンエントロピーと密接に関連しており、単純なパターンマッチング以上のテストはできない。このテストは、AI、特にLLMの側面に挑戦し、逆問題(観察から新しい知識を生成する)の文脈における合成やモデル生成のような基本的な性質の知性の特徴に関連する。我々は、予測的「計画」のためのモデル抽象化と推論に基づくメトリクス(最適ベイズ的「推論」)は、自然知性(人間と動物)、狭義AI、AI、AI、AIを含む知性をテストするための堅牢なフレームワークを提供することができると論じる。 LLMモデルのバージョンは、記憶の結果として脆弱で漸進的な傾向があり、トレーニングデータのサイズによって進行が促進される可能性が高い。結果は、アルゴリズム確率とコルモゴロフ複雑性の原理に基づいて、理論上普遍的な知性を保証するハイブリッドなニューロシンボリックアプローチと比較された。この方法は、短いバイナリシーケンスにおける概念実証においてLLMよりも優れる。圧縮は、システムの予測力と直接的に比例するものであり、その逆であることを示す。つまり、システムが圧縮をより良く予測できるなら、圧縮をより良く予測できるなら、それを予測できる。本研究は,LLMの基本的限界に対する疑念を強くし,人間の言語に対する熟達の認識に最適化されたシステムとして明らかにした。

関連論文リスト

Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
AI-Powered Bayesian Inference [0.0]
ジェネレーティブ・人工知能(GAI)は、社会が知識の獲得についてどう考えるかを変えるインフレクティブ・ポイントを提唱している。 GAIは意思決定に対して完全に信頼できないが、意思決定パイプラインに統合可能な貴重な情報を提供することもある。与えられたプロンプトに対する可変回答を利用して、AI予測の確実性を反映した事前分布を構築することができる。
論文参考訳（メタデータ） (2025-02-26T15:42:06Z)
Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。提案アルゴリズムは,ベイズ理論をモデルとした。本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文参考訳（メタデータ） (2025-02-17T15:08:50Z)
Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-10T15:31:54Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
大規模言語モデルのテスト時間計算のための2つの原理的アルゴリズムを提案する。理論的には、1つのアルゴリズムの故障確率は、そのテスト時間計算が大きくなるにつれて指数関数的に減衰する。
論文参考訳（メタデータ） (2024-11-29T05:29:47Z)
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文参考訳（メタデータ） (2024-10-17T15:09:03Z)
Over the Edge of Chaos? Excess Complexity as a Roadblock to Artificial General Intelligence [4.901955678857442]
我々は、AIの性能が臨界複雑性しきい値を超えると不安定になるかもしれない複雑なシステムにおける位相遷移に類似した臨界点の存在を仮定した。我々のシミュレーションは、AIシステムの複雑さの増加が、より高い臨界閾値を超え、予測不可能なパフォーマンス行動を引き起こすことを実証した。
論文参考訳（メタデータ） (2024-07-04T05:46:39Z)
SynthTree: Co-supervised Local Model Synthesis for Explainable Prediction [15.832975722301011]
本稿では,最小限の精度で説明可能性を向上させる手法を提案する。我々は,AI技術を利用してノードを推定する新しい手法を開発した。我々の研究は、統計的方法論が説明可能なAIを前進させる上で重要な役割を担っている。
論文参考訳（メタデータ） (2024-06-16T14:43:01Z)
Precise Error Rates for Computationally Efficient Testing [67.30044609837749]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文参考訳（メタデータ） (2023-11-01T04:41:16Z)
T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。 LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-05T11:56:30Z)
Learnability, Sample Complexity, and Hypothesis Class Complexity for Regression Models [10.66048003460524]
この研究はPACの基礎に触発され、既存の回帰学習問題に動機付けられている。提案手法はEpsilon-Confidence Aough Correct (epsilon CoAC)で示され、Kullback Leibler divergence(相対エントロピー)を利用する。これにより、学習者は異なる複雑性順序の仮説クラスを比較でき、それらの中から最小のエプシロンを最適に選択できる。
論文参考訳（メタデータ） (2023-03-28T15:59:12Z)
Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文参考訳（メタデータ） (2022-05-21T08:39:42Z)
Great Truths are Always Simple: A Rather Simple Knowledge Encoder for Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文参考訳（メタデータ） (2022-05-04T01:27:36Z)
Parsimonious Inference [0.0]
parsimonious inferenceは任意のアーキテクチャ上の推論の情報理論的な定式化である。提案手法は,効率的な符号化と巧妙なサンプリング戦略を組み合わせて,クロスバリデーションを伴わない予測アンサンブルを構築する。
論文参考訳（メタデータ） (2021-03-03T04:13:14Z)
Learning Reasoning Strategies in End-to-End Differentiable Proving [50.9791149533921]
条件付き定理プローバーは勾配に基づく最適化により最適規則選択戦略を学習する。条件付き定理プローサは拡張性があり、CLUTRRデータセット上で最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2020-07-13T16:22:14Z)
Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文参考訳（メタデータ） (2020-06-15T18:37:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。