論文の概要: Mathematics and Coding are Universal AI Benchmarks
- arxiv url: http://arxiv.org/abs/2512.13764v1
- Date: Mon, 15 Dec 2025 14:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.434397
- Title: Mathematics and Coding are Universal AI Benchmarks
- Title(参考訳): 数学とコーディングはユニバーサルAIベンチマークである
- Authors: Przemyslaw Chojecki,
- Abstract要約: 我々は,AIエージェントのための心理測定バッテリーの変調空間内での数学とコーディングの特別な役割について研究する。
正規証明カーネル(例えば、Lean, Coq)と組み合わせると、このファイバー上のGVUフローはスペクトル的に安定な自己改善レギュレーションを持つことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the special role of mathematics and coding inside the moduli space of psychometric batteries for AI agents. Building on the AAI framework and GVU dynamics from previous works, we define the Mathematics Fiber and show that, when paired with formal proof kernels (e.g. Lean, Coq), GVU flows on this fiber admit spectrally stable self-improvement regimes due to oracle-like verification. Our main technical result is a density theorem: under uniform tightness of agent outputs and a Lipschitz AAI functional, the subspace of batteries generated by mathematical theorem-proving and coding tasks is dense in the moduli space of batteries with respect to the evaluation metric. Coding alone is universal in this sense, while pure mathematics is not; its privilege is spectral rather than expressive. We interpret this as evidence that mathematics and coding provide ``universal coordinates'' for evaluation, and that formal mathematics is a natural ignition domain for recursive self-improvement in advanced AI agents.
- Abstract(参考訳): 我々は,AIエージェントのための心理測定バッテリーの変調空間内での数学とコーディングの特別な役割について研究する。
従来の研究からAAIフレームワークとGVUダイナミクスを構築し、数学ファイバーを定義し、公式な証明カーネル(例えばLean, Coq)と組み合わせると、このファイバー上のGVUフローは、オラクルのような検証によるスペクトル的に安定な自己改善体制を認めることを示す。
エージェント出力とリプシッツAAI関数の均一性の下で、数学的定理の証明と符号化タスクによって生成される電池の部分空間は、評価基準に関する電池のモジュライ空間において密度が高い。
この意味での符号化は普遍的であるが、純粋数学はそうではないが、その特権は表現力よりもスペクトルである。
我々はこれを、数学とコーディングが評価に 'Universal coordinates'' を提供し、フォーマルな数学が高度なAIエージェントにおける再帰的自己改善のための自然な着火領域であることを示す証拠として解釈する。
関連論文リスト
- The Geometry of Benchmarks: A New Path Toward AGI [0.0]
本稿では,AIエージェントのすべての心理測定バッテリーを,構造化されたモジュライ空間の点として扱う幾何学的枠組みを提案する。
まず、測定可能なパフォーマンスに基づいて、Kardashevスタイルの自律性階層であるAutonomous AI(AAI)スケールを定義します。
第二に、バッテリーのモジュライ空間を構築し、エージェントの順序や能力推定のレベルで区別できないベンチマークの等価クラスを特定する。
第3に、強化学習、自己再生、討論、検証に基づく微調整を前提としたジェネラルジェネレータ-検証更新演算子(GVU)を導入する。
論文 参考訳(メタデータ) (2025-12-03T21:34:09Z) - ATHENA: Agentic Team for Hierarchical Evolutionary Numerical Algorithms [4.235429894371577]
AtheNAは、エンドツーエンドの計算研究ライフサイクルを管理するためにAutonomous Labとして設計されたエージェントフレームワークである。
その中核は知識駆動型診断プロセスであるHENAループである。
このフレームワークは超人的パフォーマンスを実現し、検証エラーは10~14ドルに達する。
論文 参考訳(メタデータ) (2025-12-03T06:05:27Z) - Agentic Program Verification [14.684859166069012]
本稿では,プログラム検証を行うための最初の大規模言語モデルエージェントであるAutoRocqを提案する。
LLMの広範な訓練を実証例に頼っている過去の研究とは異なり、我々のエージェントはオンザフライで学習し、反復的な改善ループを通じて証明を改善する。
このようにして、我々の証明構成は証明エージェントと定理証明器との間の自律的な協調を含む。
論文 参考訳(メタデータ) (2025-11-21T15:51:48Z) - AutoMathKG: The automated mathematical knowledge graph based on LLM and vector database [1.799933345199395]
数学知識グラフ(KG)は、数学の分野における知識を構造化された方法で提示する。
本稿では,自動更新が可能な高品質・広包・多次元数学KGであるAutoMathKGを提案する。
論文 参考訳(メタデータ) (2025-05-19T17:41:29Z) - Formal Mathematical Reasoning: A New Frontier in AI [60.26950681543385]
我々は公式な数学的推論を提唱し、AI4Mathを次のレベルに進めるには不可欠であると主張している。
既存の進捗を要約し、オープンな課題について議論し、将来の成功を測るための重要なマイルストーンを想定します。
論文 参考訳(メタデータ) (2024-12-20T17:19:24Z) - Emergence of Self-Identity in AI: A Mathematical Framework and Empirical Study with Generative Large Language Models [4.036530158875673]
本稿では,AIシステムにおける自己同一性の定義と定量化のための数学的枠組みを提案する。
我々の枠組みは、2つの数学的に定量化された条件から自己同一性が生じることを示唆している。
本研究の意義は、ヒューマノイドロボット工学や自律システムの分野に即時に関係している。
論文 参考訳(メタデータ) (2024-11-27T17:23:47Z) - LeanAgent: Lifelong Learning for Formal Theorem Proving [85.39415834798385]
フォーマルな定理証明のための新しい生涯学習フレームワークであるLeanAgentを紹介する。
LeanAgentは継続的に一般化し、拡張可能な数学的知識を改善します。
これは23のリーンリポジトリにわたる155の定理の正式な証明を生成する。
論文 参考訳(メタデータ) (2024-10-08T17:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。