論文の概要: Improving AGI Evaluation: A Data Science Perspective
- arxiv url: http://arxiv.org/abs/2510.01687v1
- Date: Thu, 02 Oct 2025 05:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.013157
- Title: Improving AGI Evaluation: A Data Science Perspective
- Title(参考訳): AGI評価の改善: データサイエンスの視点から
- Authors: John Hawkins,
- Abstract要約: AGI評価手法は、人工知能が合成タスクを作成することの直感を利用する設計哲学に支配されていると我々は主張する。
我々は、AGIを能力を通して実証しようとする、堅牢なタスク実行を評価することに焦点を当てた代替設計哲学を論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of potential AGI systems and methods is difficult due to the breadth of the engineering goal. We have no methods for perfect evaluation of the end state, and instead measure performance on small tests designed to provide directional indication that we are approaching AGI. In this work we argue that AGI evaluation methods have been dominated by a design philosophy that uses our intuitions of what intelligence is to create synthetic tasks, that have performed poorly in the history of AI. Instead we argue for an alternative design philosophy focused on evaluating robust task execution that seeks to demonstrate AGI through competence. This perspective is developed from common practices in data science that are used to show that a system can be reliably deployed. We provide practical examples of what this would mean for AGI evaluation.
- Abstract(参考訳): 工学的目標の幅が広いため,潜在的なAGIシステムや手法の評価は困難である。
最終状態の完全な評価方法はなく、AGIに近づいているという方向性を示すために設計された小さなテストのパフォーマンスを計測する。
この研究において、AI評価手法は、人工知能が合成タスクを作成することの直感を利用して、AIの歴史において不十分な成果を上げている設計哲学に支配されていると論じる。
代わりに、AGIを能力を通して実証しようとする堅牢なタスク実行を評価することに焦点を当てた、代替設計哲学について議論する。
この観点は、システムが確実にデプロイ可能であることを示すために使用されるデータサイエンスの一般的なプラクティスから発展した。
このことがAGI評価にどのような意味を持つのかを実例で示す。
関連論文リスト
- Teaching at Scale: Leveraging AI to Evaluate and Elevate Engineering Education [3.557803321422781]
本稿では,大規模言語モデルを用いた定性的な学生フィードバックのためのスケーラブルなAI支援フレームワークを提案する。
このシステムは階層的な要約、匿名化、例外処理を用いて、オープンなコメントから実行可能なテーマを抽出する。
大規模な工学系大学への展開が成功したことを報告します。
論文 参考訳(メタデータ) (2025-08-01T20:27:40Z) - On the Evaluation of Engineering Artificial General Intelligence [5.802869598386355]
本稿では,工学的汎用人工知能(eAGI)エージェントを評価するための枠組みを提案する。
我々はeAGIを人工知能(AGI)の専門化と考えている。
eAGIエージェントは、事実とメソッドの背景知識(リコールと検索)のユニークなブレンドを持つべきである。
論文 参考訳(メタデータ) (2025-05-15T18:52:47Z) - A Benchmark for Fairness-Aware Graph Learning [58.515305543487386]
本稿では,10の代表的な公正性を考慮したグラフ学習手法に関する広範なベンチマークを示す。
我々の詳細な分析は、既存の手法の強みと限界に関する重要な洞察を明らかにしている。
論文 参考訳(メタデータ) (2024-07-16T18:43:43Z) - Levels of AGI for Operationalizing Progress on the Path to AGI [53.28828093836034]
本稿では,人工知能(AGI)モデルとその前駆体の性能と動作を分類する枠組みを提案する。
このフレームワークは、AGIのパフォーマンス、一般性、自律性のレベルを導入し、モデルを比較し、リスクを評価し、AGIへの道筋に沿って進捗を測定する共通の言語を提供する。
論文 参考訳(メタデータ) (2023-11-04T17:44:58Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Let's Go to the Alien Zoo: Introducing an Experimental Framework to
Study Usability of Counterfactual Explanations for Machine Learning [6.883906273999368]
反事実的説明(CFEs)は、心理的に根拠づけられたアプローチとして、ポストホックな説明を生み出している。
私たちは、エンゲージメントがあり、Webベースでゲームに触発された実験的なフレームワークであるAlien Zooを紹介します。
概念実証として,本手法の有効性と実用性を示す。
論文 参考訳(メタデータ) (2022-05-06T17:57:05Z) - A Metamodel and Framework for AGI [3.198144010381572]
本稿では,応用AGIシステム構築のための知識保存メタモデルとフレームワークを実装したDeep Fusion Reasoning Engine(DFRE)を紹介する。
DFREは、対称関係と反対称関係の明確な区別など、いくつかの重要な基本的な知識特性を示す。
提案手法は, 教師なし物体の検出・認識において, 平均94%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2020-08-28T23:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。