Fugu-MT 論文翻訳(概要): AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence

論文の概要: AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence

arxiv url: http://arxiv.org/abs/2504.04430v4
Date: Tue, 10 Jun 2025 10:33:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:39.857409
Title: AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence
Title（参考訳）: AGITB: 人工知能評価のための信号レベルベンチマーク
Authors: Matej Šprogar,
Abstract要約: 既存の評価フレームワークは、その中核にある一般性を捉えることができず、漸進的な進歩のためのガイダンスをほとんど提供しない。本稿では,12個の完全自動化可能なベンチマークスイートであるAGITB(Artificial General Intelligence Testbed)を紹介する。 AGITBは、事前訓練、シンボル操作、セマンティックグラウンドをせずに、時間的シーケンスを予測するモデルを必要とする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite major advances in machine learning, current artificial intelligence systems continue to fall short of human-like general intelligence. While large language models can generate fluent and coherent outputs, they lack the deep understanding and adaptive reasoning that characterize truly general intelligence. Existing evaluation frameworks, which are centered on broad language or perception tasks, fail to capture generality at its core and offer little guidance for incremental progress. To address this gap, this paper introduces the artificial general intelligence testbed (AGITB), a novel and freely available benchmarking suite comprising twelve fully automatable tests designed to evaluate low-level cognitive precursors through binary signal prediction. AGITB requires models to forecast temporal sequences without pretraining, symbolic manipulation, or semantic grounding. The framework isolates core computational invariants - such as determinism, sensitivity, and generalization - that align with principles of biological information processing. Engineered to resist brute-force and memorization-based approaches, AGITB presumes no prior knowledge and demands learning from first principles. While humans pass all tests, no current AI system has met the full AGITB criteria, underscoring its potential as a rigorous, interpretable, and actionable benchmark for guiding and evaluating progress toward artificial general intelligence.
Abstract（参考訳）: 機械学習の大きな進歩にもかかわらず、現在の人工知能システムは、人間のような汎用知能に欠け続けている。大きな言語モデルは流動的で一貫性のある出力を生成することができるが、それらは真に汎用的な知性を特徴づける深い理解と適応的な推論を欠いている。既存の評価フレームワークは、幅広い言語や知覚タスクを中心にしているが、その中核にある一般性を捉えることができず、漸進的な進歩のためのガイダンスはほとんど提供されていない。このギャップに対処するために,2値信号予測により低レベル認知前駆体を評価するように設計された12の完全自動化可能なベンチマークスイートであるAGITB(Artificial General Intelligence Testbed)を紹介する。 AGITBは、事前訓練、シンボル操作、セマンティックグラウンドをせずに、時間的シーケンスを予測するモデルを必要とする。このフレームワークは、生物学的情報処理の原理に沿って、決定論、感度、一般化といった中心的な計算不変量を分離する。残酷な力と暗記に基づくアプローチに抵抗するために設計されたAGITBは、事前の知識を前提とせず、第一原理から学ぶことを要求している。人間はすべてのテストに合格するが、現在のAIシステムは完全なAGITB基準を満たしておらず、人工知能への進歩を誘導し評価するための厳格で解釈可能な、実行可能なベンチマークとしての可能性を強調している。

関連論文リスト

Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.11447353341926]
セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
論文参考訳（メタデータ） (2025-12-21T00:49:40Z)
The Geometry of Benchmarks: A New Path Toward AGI [0.0]
本稿では,AIエージェントのすべての心理測定バッテリーを,構造化されたモジュライ空間の点として扱う幾何学的枠組みを提案する。まず、測定可能なパフォーマンスに基づいて、Kardashevスタイルの自律性階層であるAutonomous AI(AAI)スケールを定義します。第二に、バッテリーのモジュライ空間を構築し、エージェントの順序や能力推定のレベルで区別できないベンチマークの等価クラスを特定する。第3に、強化学習、自己再生、討論、検証に基づく微調整を前提としたジェネラルジェネレータ-検証更新演算子(GVU)を導入する。
論文参考訳（メタデータ） (2025-12-03T21:34:09Z)
On the Measure of a Model: From Intelligence to Generality [0.7561750463371523]
ARC、Ravenにインスパイアされたテスト、Blackbird Taskなどのベンチマークは、大規模言語モデル(LLM)のインテリジェンスを評価するために広く使われている。しかし、インテリジェンスの概念は、安定した定義が欠如しており、質問応答や要約、コーディングといった実践的なタスクのパフォーマンスを予測できない。我々の見解では、評価は抽象的な知性の概念よりも一般性に根ざすべきである。
論文参考訳（メタデータ） (2025-11-14T09:46:48Z)
A Definition of AGI [208.25193480759026]
人工知能の具体的な定義の欠如は、今日の専門的なAIと人間レベルの認知のギャップを曖昧にしている。そこで本研究では,AGIを認知的多目的性と熟達度に適合するものとして,これに対応するための定量的枠組みを提案する。
論文参考訳（メタデータ） (2025-10-21T01:28:35Z)
The next question after Turing's question: Introducing the Grow-AI test [51.56484100374058]
本研究は,GROW-AIと呼ばれる人工知能評価の枠組みを拡張することを目的としている。 GROW-AIは、チューリングテストの自然な後継者である"Can Machine grow up? この作品の独創性は、人間の世界から人工知能への「成長」過程の概念的な変換にある。
論文参考訳（メタデータ） (2025-08-22T10:19:42Z)
Beyond Statistical Learning: Exact Learning Is Essential for General Intelligence [59.07578850674114]
音の誘惑的推論は、一般知能の必然的に望ましい側面である。もっとも先進的なフロンティアシステムでさえ、定期的かつ一貫して容易に解決可能な推論タスクに干渉していることは、よく文書化されている。彼らの不健全な振る舞いは、彼らの発展を支えている統計的学習のアプローチの結果である、と我々は主張する。
論文参考訳（メタデータ） (2025-06-30T14:37:50Z)
Bhatt Conjectures: On Necessary-But-Not-Sufficient Benchmark Tautology for Human Like Reasoning [0.0]
Bhatt Conjecturesフレームワークは、AI推論と理解を評価するための厳密で階層的なベンチマークを導入している。 Agentreasoning-sdkは実践的な実装を示し、現在のAIモデルが複雑な推論タスクに苦労していることを明らかにする。
論文参考訳（メタデータ） (2025-06-13T02:41:18Z)
Generalising from Self-Produced Data: Model Training Beyond Human Constraints [0.0]
本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
論文参考訳（メタデータ） (2025-04-07T03:48:02Z)
Beyond Detection: Designing AI-Resilient Assessments with Automated Feedback Tool to Foster Critical Thinking [0.0]
本研究は, 検出ではなく, 評価設計に基づく能動的AIレジリエントソリューションを提案する。 WebベースのPythonツールで、Bloomの分類と高度な自然言語処理技術を統合する。これは、タスクがリコールや要約のような下位の思考や、分析、評価、作成といった上位のスキルを目標にしているかどうかを教育者が判断するのに役立つ。
論文参考訳（メタデータ） (2025-03-30T23:13:00Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents [55.63497537202751]
コネクショニストと象徴的人工知能(AI)の収束を探求する記事従来、コネクショナリストAIはニューラルネットワークにフォーカスし、シンボリックAIはシンボリック表現とロジックを強調していた。大型言語モデル(LLM)の最近の進歩は、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。
論文参考訳（メタデータ） (2024-07-11T14:00:53Z)
Integration of cognitive tasks into artificial general intelligence test for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文参考訳（メタデータ） (2024-02-04T15:50:42Z)
Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文参考訳（メタデータ） (2023-11-13T21:20:17Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)
Beyond Interpretable Benchmarks: Contextual Learning through Cognitive and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文参考訳（メタデータ） (2022-12-04T08:30:04Z)
Certifiable Artificial Intelligence Through Data Fusion [7.103626867766158]
本稿では,人工知能(AI)システムの採用,フィールド化,保守に関する課題をレビューし,提案する。画像データ融合により、精度対距離を考慮したAI物体認識精度を支援する。
論文参考訳（メタデータ） (2021-11-03T03:34:19Z)
An interdisciplinary conceptual study of Artificial Intelligence (AI) for helping benefit-risk assessment practices: Towards a comprehensive qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文参考訳（メタデータ） (2021-05-07T12:01:31Z)
The Why, What and How of Artificial General Intelligence Chip Development [0.0]
インテリジェントなセンシング、自動化、エッジコンピューティングアプリケーションは、AIチップの市場ドライバとなっている。 AIチップソリューションの一般化、パフォーマンス、堅牢性、スケーラビリティは、人間のような知能能力と比較される。
論文参考訳（メタデータ） (2020-12-08T02:36:04Z)
Estimating the Brittleness of AI: Safety Integrity Levels and the Need for Testing Out-Of-Distribution Performance [0.0]
AI(Test, Evaluation, Verification, and Validation for Artificial Intelligence)は、AI研究者が生み出した経済的、社会的報酬を制限することを脅かす課題である。本稿では,いずれもDeep Neural Networksを定めていないことを論じる。
論文参考訳（メタデータ） (2020-09-02T03:33:40Z)
Neuro-symbolic Architectures for Context Understanding [59.899606495602406]
本稿では,データ駆動型アプローチと知識駆動型アプローチの強みを組み合わせたフレームワークとして,ハイブリッドAI手法を提案する。具体的には、知識ベースを用いて深層ニューラルネットワークの学習過程を導く方法として、ニューロシンボリズムの概念を継承する。
論文参考訳（メタデータ） (2020-03-09T15:04:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。