論文の概要: AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence
- arxiv url: http://arxiv.org/abs/2504.04430v4
- Date: Tue, 10 Jun 2025 10:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:39.857409
- Title: AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence
- Title(参考訳): AGITB: 人工知能評価のための信号レベルベンチマーク
- Authors: Matej Šprogar,
- Abstract要約: 既存の評価フレームワークは、その中核にある一般性を捉えることができず、漸進的な進歩のためのガイダンスをほとんど提供しない。
本稿では,12個の完全自動化可能なベンチマークスイートであるAGITB(Artificial General Intelligence Testbed)を紹介する。
AGITBは、事前訓練、シンボル操作、セマンティックグラウンドをせずに、時間的シーケンスを予測するモデルを必要とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite major advances in machine learning, current artificial intelligence systems continue to fall short of human-like general intelligence. While large language models can generate fluent and coherent outputs, they lack the deep understanding and adaptive reasoning that characterize truly general intelligence. Existing evaluation frameworks, which are centered on broad language or perception tasks, fail to capture generality at its core and offer little guidance for incremental progress. To address this gap, this paper introduces the artificial general intelligence testbed (AGITB), a novel and freely available benchmarking suite comprising twelve fully automatable tests designed to evaluate low-level cognitive precursors through binary signal prediction. AGITB requires models to forecast temporal sequences without pretraining, symbolic manipulation, or semantic grounding. The framework isolates core computational invariants - such as determinism, sensitivity, and generalization - that align with principles of biological information processing. Engineered to resist brute-force and memorization-based approaches, AGITB presumes no prior knowledge and demands learning from first principles. While humans pass all tests, no current AI system has met the full AGITB criteria, underscoring its potential as a rigorous, interpretable, and actionable benchmark for guiding and evaluating progress toward artificial general intelligence.
- Abstract(参考訳): 機械学習の大きな進歩にもかかわらず、現在の人工知能システムは、人間のような汎用知能に欠け続けている。
大きな言語モデルは流動的で一貫性のある出力を生成することができるが、それらは真に汎用的な知性を特徴づける深い理解と適応的な推論を欠いている。
既存の評価フレームワークは、幅広い言語や知覚タスクを中心にしているが、その中核にある一般性を捉えることができず、漸進的な進歩のためのガイダンスはほとんど提供されていない。
このギャップに対処するために,2値信号予測により低レベル認知前駆体を評価するように設計された12の完全自動化可能なベンチマークスイートであるAGITB(Artificial General Intelligence Testbed)を紹介する。
AGITBは、事前訓練、シンボル操作、セマンティックグラウンドをせずに、時間的シーケンスを予測するモデルを必要とする。
このフレームワークは、生物学的情報処理の原理に沿って、決定論、感度、一般化といった中心的な計算不変量を分離する。
残酷な力と暗記に基づくアプローチに抵抗するために設計されたAGITBは、事前の知識を前提とせず、第一原理から学ぶことを要求している。
人間はすべてのテストに合格するが、現在のAIシステムは完全なAGITB基準を満たしておらず、人工知能への進歩を誘導し評価するための厳格で解釈可能な、実行可能なベンチマークとしての可能性を強調している。
関連論文リスト
- Beyond Detection: Designing AI-Resilient Assessments with Automated Feedback Tool to Foster Critical Thinking [0.0]
本研究は, 検出ではなく, 評価設計に基づく能動的AIレジリエントソリューションを提案する。
WebベースのPythonツールで、Bloomの分類と高度な自然言語処理技術を統合する。
これは、タスクがリコールや要約のような下位の思考や、分析、評価、作成といった上位のスキルを目標にしているかどうかを教育者が判断するのに役立つ。
論文 参考訳(メタデータ) (2025-03-30T23:13:00Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents [55.63497537202751]
コネクショニストと象徴的人工知能(AI)の収束を探求する記事
従来、コネクショナリストAIはニューラルネットワークにフォーカスし、シンボリックAIはシンボリック表現とロジックを強調していた。
大型言語モデル(LLM)の最近の進歩は、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。
論文 参考訳(メタデータ) (2024-07-11T14:00:53Z) - Integration of cognitive tasks into artificial general intelligence test
for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文 参考訳(メタデータ) (2024-02-04T15:50:42Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Beyond Interpretable Benchmarks: Contextual Learning through Cognitive
and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。
通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文 参考訳(メタデータ) (2022-12-04T08:30:04Z) - Certifiable Artificial Intelligence Through Data Fusion [7.103626867766158]
本稿では,人工知能(AI)システムの採用,フィールド化,保守に関する課題をレビューし,提案する。
画像データ融合により、精度対距離を考慮したAI物体認識精度を支援する。
論文 参考訳(メタデータ) (2021-11-03T03:34:19Z) - Estimating the Brittleness of AI: Safety Integrity Levels and the Need
for Testing Out-Of-Distribution Performance [0.0]
AI(Test, Evaluation, Verification, and Validation for Artificial Intelligence)は、AI研究者が生み出した経済的、社会的報酬を制限することを脅かす課題である。
本稿では,いずれもDeep Neural Networksを定めていないことを論じる。
論文 参考訳(メタデータ) (2020-09-02T03:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。