論文の概要: The Geometry of Benchmarks: A New Path Toward AGI
- arxiv url: http://arxiv.org/abs/2512.04276v1
- Date: Wed, 03 Dec 2025 21:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.890084
- Title: The Geometry of Benchmarks: A New Path Toward AGI
- Title(参考訳): ベンチマークの幾何学:AGIへの新たな道
- Authors: Przemyslaw Chojecki,
- Abstract要約: 本稿では,AIエージェントのすべての心理測定バッテリーを,構造化されたモジュライ空間の点として扱う幾何学的枠組みを提案する。
まず、測定可能なパフォーマンスに基づいて、Kardashevスタイルの自律性階層であるAutonomous AI(AAI)スケールを定義します。
第二に、バッテリーのモジュライ空間を構築し、エージェントの順序や能力推定のレベルで区別できないベンチマークの等価クラスを特定する。
第3に、強化学習、自己再生、討論、検証に基づく微調整を前提としたジェネラルジェネレータ-検証更新演算子(GVU)を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks are the primary tool for assessing progress in artificial intelligence (AI), yet current practice evaluates models on isolated test suites and provides little guidance for reasoning about generality or autonomous self-improvement. Here we introduce a geometric framework in which all psychometric batteries for AI agents are treated as points in a structured moduli space, and agent performance is described by capability functionals over this space. First, we define an Autonomous AI (AAI) Scale, a Kardashev-style hierarchy of autonomy grounded in measurable performance on batteries spanning families of tasks (for example reasoning, planning, tool use and long-horizon control). Second, we construct a moduli space of batteries, identifying equivalence classes of benchmarks that are indistinguishable at the level of agent orderings and capability inferences. This geometry yields determinacy results: dense families of batteries suffice to certify performance on entire regions of task space. Third, we introduce a general Generator-Verifier-Updater (GVU) operator that subsumes reinforcement learning, self-play, debate and verifier-based fine-tuning as special cases, and we define a self-improvement coefficient $κ$ as the Lie derivative of a capability functional along the induced flow. A variance inequality on the combined noise of generation and verification provides sufficient conditions for $κ> 0$. Our results suggest that progress toward artificial general intelligence (AGI) is best understood as a flow on moduli of benchmarks, driven by GVU dynamics rather than by scores on individual leaderboards.
- Abstract(参考訳): ベンチマークは人工知能(AI)の進歩を評価する主要なツールであるが、現在のプラクティスは独立したテストスイートのモデルを評価し、汎用性や自律的な自己改善に関する推論のためのガイダンスはほとんど提供しない。
ここでは、AIエージェントのすべての心理測定バッテリーを、構造化されたモジュラー空間の点として扱う幾何学的枠組みを紹介し、エージェント性能を、この空間上の機能関数によって記述する。
まず、タスクのファミリー(推論、計画、ツールの使用、長期制御など)にまたがるバッテリの計測可能なパフォーマンスを基礎とした、Kardashevスタイルの自律性階層であるAutonomous AI(AAI)スケールを定義します。
第二に、バッテリーのモジュライ空間を構築し、エージェントの順序や能力推定のレベルで区別できないベンチマークの等価クラスを特定する。
密度の高い電池の族はタスク空間の全領域のパフォーマンスを証明するのに十分である。
第3に、強化学習、自己再生、議論、検証に基づく微調整を特別な場合として仮定する一般的なジェネレータ-検証器(GVU)演算子を導入し、誘導流れに沿った機能関数のリー微分として自己改善係数$κ$を定義する。
生成と検証の組み合わせのノイズに対する分散不等式は、$κ> 0$に対して十分な条件を与える。
この結果から,AGI(Artificial General Intelligence, 人工知能)の進歩は,個々のリーダボードのスコアではなく,GVUのダイナミックスによって駆動されるベンチマークのモジュラーのフローとして理解されていることが示唆された。
関連論文リスト
- Psychometric Tests for AI Agents and Their Moduli Space [0.0]
我々は、電池上のAAI関数の概念を正確に定義し、合理的な自律性/汎用知能スコアが満足するべきであると判断する。
従来定義されていた複合指標('AAI-Index')が,AAI関数の特別な場合であることを示す。
論文 参考訳(メタデータ) (2025-11-24T16:15:08Z) - ARC-GEN: A Mimetic Procedural Benchmark Generator for the Abstraction and Reasoning Corpus [3.553493344868413]
本稿では,ARC-AGIトレーニングデータセットの拡張を目的としたオープンソースプロシージャジェネレータであるARC-GENを紹介する。
これまでの取り組みとは異なり、我々のジェネレータは(全4つのタスクをカバーしている)徹底的かつ緩和的です。
また、このジェネレータを用いて、2025年のGoogle Code Golf Championshipに応募したプログラムの正当性を検証するための静的ベンチマークスイートの確立についても論じる。
論文 参考訳(メタデータ) (2025-10-31T18:10:05Z) - AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文 参考訳(メタデータ) (2025-09-30T09:37:01Z) - AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence [0.0]
Artificial General Intelligence Testbed (AGITB)は14の初等試験からなる新しいベンチマークスイートを導入した。
AGITBは、事前訓練することなく、段階的に、時間的シーケンスで次の入力を予測する能力に関するモデルを評価する。
ヒトの皮質は全てのテストを満たすが、現在のAIシステムは完全なAGITB基準を満たしていない。
論文 参考訳(メタデータ) (2025-04-06T10:01:15Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。