論文の概要: Improving AGI Evaluation: A Data Science Perspective
- arxiv url: http://arxiv.org/abs/2510.01687v1
- Date: Thu, 02 Oct 2025 05:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.013157
- Title: Improving AGI Evaluation: A Data Science Perspective
- Title(参考訳): AGI評価の改善: データサイエンスの視点から
- Authors: John Hawkins,
- Abstract要約: AGI評価手法は、人工知能が合成タスクを作成することの直感を利用する設計哲学に支配されていると我々は主張する。
我々は、AGIを能力を通して実証しようとする、堅牢なタスク実行を評価することに焦点を当てた代替設計哲学を論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of potential AGI systems and methods is difficult due to the breadth of the engineering goal. We have no methods for perfect evaluation of the end state, and instead measure performance on small tests designed to provide directional indication that we are approaching AGI. In this work we argue that AGI evaluation methods have been dominated by a design philosophy that uses our intuitions of what intelligence is to create synthetic tasks, that have performed poorly in the history of AI. Instead we argue for an alternative design philosophy focused on evaluating robust task execution that seeks to demonstrate AGI through competence. This perspective is developed from common practices in data science that are used to show that a system can be reliably deployed. We provide practical examples of what this would mean for AGI evaluation.
- Abstract(参考訳): 工学的目標の幅が広いため,潜在的なAGIシステムや手法の評価は困難である。
最終状態の完全な評価方法はなく、AGIに近づいているという方向性を示すために設計された小さなテストのパフォーマンスを計測する。
この研究において、AI評価手法は、人工知能が合成タスクを作成することの直感を利用して、AIの歴史において不十分な成果を上げている設計哲学に支配されていると論じる。
代わりに、AGIを能力を通して実証しようとする堅牢なタスク実行を評価することに焦点を当てた、代替設計哲学について議論する。
この観点は、システムが確実にデプロイ可能であることを示すために使用されるデータサイエンスの一般的なプラクティスから発展した。
このことがAGI評価にどのような意味を持つのかを実例で示す。
関連論文リスト
- Let the Barbarians In: How AI Can Accelerate Systems Performance Research [80.43506848683633]
我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。
我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
論文 参考訳(メタデータ) (2025-12-16T18:51:23Z) - A Definition of AGI [208.25193480759026]
人工知能の具体的な定義の欠如は、今日の専門的なAIと人間レベルの認知のギャップを曖昧にしている。
そこで本研究では,AGIを認知的多目的性と熟達度に適合するものとして,これに対応するための定量的枠組みを提案する。
論文 参考訳(メタデータ) (2025-10-21T01:28:35Z) - Teaching at Scale: Leveraging AI to Evaluate and Elevate Engineering Education [3.557803321422781]
本稿では,大規模言語モデルを用いた定性的な学生フィードバックのためのスケーラブルなAI支援フレームワークを提案する。
このシステムは階層的な要約、匿名化、例外処理を用いて、オープンなコメントから実行可能なテーマを抽出する。
大規模な工学系大学への展開が成功したことを報告します。
論文 参考訳(メタデータ) (2025-08-01T20:27:40Z) - Rethinking Machine Unlearning in Image Generation Models [59.697750585491264]
CatIGMUは、新しい階層的なタスク分類フレームワークである。
EvalIGMUは包括的な評価フレームワークである。
高品質な未学習データセットであるDataIGMを構築した。
論文 参考訳(メタデータ) (2025-06-03T11:25:14Z) - On the Evaluation of Engineering Artificial General Intelligence [5.802869598386355]
本稿では,工学的汎用人工知能(eAGI)エージェントを評価するための枠組みを提案する。
我々はeAGIを人工知能(AGI)の専門化と考えている。
eAGIエージェントは、事実とメソッドの背景知識(リコールと検索)のユニークなブレンドを持つべきである。
論文 参考訳(メタデータ) (2025-05-15T18:52:47Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - A Benchmark for Fairness-Aware Graph Learning [58.515305543487386]
本稿では,10の代表的な公正性を考慮したグラフ学習手法に関する広範なベンチマークを示す。
我々の詳細な分析は、既存の手法の強みと限界に関する重要な洞察を明らかにしている。
論文 参考訳(メタデータ) (2024-07-16T18:43:43Z) - Levels of AGI for Operationalizing Progress on the Path to AGI [53.28828093836034]
本稿では,人工知能(AGI)モデルとその前駆体の性能と動作を分類する枠組みを提案する。
このフレームワークは、AGIのパフォーマンス、一般性、自律性のレベルを導入し、モデルを比較し、リスクを評価し、AGIへの道筋に沿って進捗を測定する共通の言語を提供する。
論文 参考訳(メタデータ) (2023-11-04T17:44:58Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Let's Go to the Alien Zoo: Introducing an Experimental Framework to
Study Usability of Counterfactual Explanations for Machine Learning [6.883906273999368]
反事実的説明(CFEs)は、心理的に根拠づけられたアプローチとして、ポストホックな説明を生み出している。
私たちは、エンゲージメントがあり、Webベースでゲームに触発された実験的なフレームワークであるAlien Zooを紹介します。
概念実証として,本手法の有効性と実用性を示す。
論文 参考訳(メタデータ) (2022-05-06T17:57:05Z) - Certifiable Artificial Intelligence Through Data Fusion [7.103626867766158]
本稿では,人工知能(AI)システムの採用,フィールド化,保守に関する課題をレビューし,提案する。
画像データ融合により、精度対距離を考慮したAI物体認識精度を支援する。
論文 参考訳(メタデータ) (2021-11-03T03:34:19Z) - A Metamodel and Framework for AGI [3.198144010381572]
本稿では,応用AGIシステム構築のための知識保存メタモデルとフレームワークを実装したDeep Fusion Reasoning Engine(DFRE)を紹介する。
DFREは、対称関係と反対称関係の明確な区別など、いくつかの重要な基本的な知識特性を示す。
提案手法は, 教師なし物体の検出・認識において, 平均94%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2020-08-28T23:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。