論文の概要: AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence
- arxiv url: http://arxiv.org/abs/2504.04430v7
- Date: Thu, 06 Nov 2025 12:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 15:57:27.578674
- Title: AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence
- Title(参考訳): AGITB: 人工知能評価のための信号レベルベンチマーク
- Authors: Matej Šprogar,
- Abstract要約: Artificial General Intelligence Testbed (AGITB)は14の初等試験からなる新しいベンチマークスイートを導入した。
AGITBは、事前訓練することなく、段階的に、時間的シーケンスで次の入力を予測する能力に関するモデルを評価する。
ヒトの皮質は全てのテストを満たすが、現在のAIシステムは完全なAGITB基準を満たしていない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current artificial intelligence systems continue to fall short of human-like general intelligence. Existing evaluation frameworks, which focus on language or perception tasks, fail to capture the essence of generality or provide actionable guidance. The Artificial General Intelligence Testbed (AGITB) introduces a novel benchmarking suite comprising fourteen elementary tests, thirteen of which are fully automated. AGITB evaluates models on their ability to forecast the next input in a temporal sequence, step by step, without pretraining, symbolic manipulation, or semantic grounding. The framework isolates core computational invariants - such as determinism, sensitivity, and generalisation - that parallel principles of biological information processing. Designed to resist brute-force or memorisation-based strategies, AGITB enforces unbiased and autonomous learning. The human cortex satisfies all tests, whereas no current AI system meets the full AGITB criteria, demonstrating its value as a rigorous, interpretable, and actionable benchmark for evaluating progress toward artificial general intelligence. A reference implementation of AGITB is freely available on GitHub.
- Abstract(参考訳): 現在の人工知能システムは、人間のような汎用知能に欠け続けている。
言語や知覚タスクにフォーカスする既存の評価フレームワークは、一般性の本質を捉えたり、実用的なガイダンスを提供したりすることができない。
Artificial General Intelligence Testbed (AGITB) は14の初等試験からなる新しいベンチマークスイートを導入し、そのうち13は完全に自動化されている。
AGITBは、時間的シーケンス、ステップバイステップ、事前訓練、シンボル操作、セマンティックグラウンドディングなしで次の入力を予測する能力に基づいてモデルを評価する。
このフレームワークは、生物学的情報処理の並列原理である決定論、感度、一般化など、コアな計算不変性を分離する。
残酷な力や暗記に基づく戦略に抵抗するために設計されたAGITBは、偏見のない自律的な学習を強制する。
ヒトの皮質は全てのテストを満たすが、現在のAIシステムは完全なAGITB基準を満たしておらず、人工知能への進歩を評価するための厳密で解釈可能な、実行可能なベンチマークとしての価値を示している。
AGITBのリファレンス実装はGitHubで無償公開されている。
関連論文リスト
- Beyond Statistical Learning: Exact Learning Is Essential for General Intelligence [59.07578850674114]
音の誘惑的推論は、一般知能の必然的に望ましい側面である。
もっとも先進的なフロンティアシステムでさえ、定期的かつ一貫して容易に解決可能な推論タスクに干渉していることは、よく文書化されている。
彼らの不健全な振る舞いは、彼らの発展を支えている統計的学習のアプローチの結果である、と我々は主張する。
論文 参考訳(メタデータ) (2025-06-30T14:37:50Z) - Bhatt Conjectures: On Necessary-But-Not-Sufficient Benchmark Tautology for Human Like Reasoning [0.0]
Bhatt Conjecturesフレームワークは、AI推論と理解を評価するための厳密で階層的なベンチマークを導入している。
Agentreasoning-sdkは実践的な実装を示し、現在のAIモデルが複雑な推論タスクに苦労していることを明らかにする。
論文 参考訳(メタデータ) (2025-06-13T02:41:18Z) - Generalising from Self-Produced Data: Model Training Beyond Human Constraints [0.0]
本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。
このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
論文 参考訳(メタデータ) (2025-04-07T03:48:02Z) - Beyond Detection: Designing AI-Resilient Assessments with Automated Feedback Tool to Foster Critical Thinking [0.0]
本研究は, 検出ではなく, 評価設計に基づく能動的AIレジリエントソリューションを提案する。
WebベースのPythonツールで、Bloomの分類と高度な自然言語処理技術を統合する。
これは、タスクがリコールや要約のような下位の思考や、分析、評価、作成といった上位のスキルを目標にしているかどうかを教育者が判断するのに役立つ。
論文 参考訳(メタデータ) (2025-03-30T23:13:00Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents [55.63497537202751]
コネクショニストと象徴的人工知能(AI)の収束を探求する記事
従来、コネクショナリストAIはニューラルネットワークにフォーカスし、シンボリックAIはシンボリック表現とロジックを強調していた。
大型言語モデル(LLM)の最近の進歩は、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。
論文 参考訳(メタデータ) (2024-07-11T14:00:53Z) - Integration of cognitive tasks into artificial general intelligence test
for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文 参考訳(メタデータ) (2024-02-04T15:50:42Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Beyond Interpretable Benchmarks: Contextual Learning through Cognitive
and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。
通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文 参考訳(メタデータ) (2022-12-04T08:30:04Z) - Certifiable Artificial Intelligence Through Data Fusion [7.103626867766158]
本稿では,人工知能(AI)システムの採用,フィールド化,保守に関する課題をレビューし,提案する。
画像データ融合により、精度対距離を考慮したAI物体認識精度を支援する。
論文 参考訳(メタデータ) (2021-11-03T03:34:19Z) - The Why, What and How of Artificial General Intelligence Chip
Development [0.0]
インテリジェントなセンシング、自動化、エッジコンピューティングアプリケーションは、AIチップの市場ドライバとなっている。
AIチップソリューションの一般化、パフォーマンス、堅牢性、スケーラビリティは、人間のような知能能力と比較される。
論文 参考訳(メタデータ) (2020-12-08T02:36:04Z) - Estimating the Brittleness of AI: Safety Integrity Levels and the Need
for Testing Out-Of-Distribution Performance [0.0]
AI(Test, Evaluation, Verification, and Validation for Artificial Intelligence)は、AI研究者が生み出した経済的、社会的報酬を制限することを脅かす課題である。
本稿では,いずれもDeep Neural Networksを定めていないことを論じる。
論文 参考訳(メタデータ) (2020-09-02T03:33:40Z) - Neuro-symbolic Architectures for Context Understanding [59.899606495602406]
本稿では,データ駆動型アプローチと知識駆動型アプローチの強みを組み合わせたフレームワークとして,ハイブリッドAI手法を提案する。
具体的には、知識ベースを用いて深層ニューラルネットワークの学習過程を導く方法として、ニューロシンボリズムの概念を継承する。
論文 参考訳(メタデータ) (2020-03-09T15:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。