論文の概要: Evaluating Intelligence via Trial and Error
- arxiv url: http://arxiv.org/abs/2502.18858v2
- Date: Mon, 03 Mar 2025 13:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 15:02:13.754167
- Title: Evaluating Intelligence via Trial and Error
- Title(参考訳): 試行錯誤によるインテリジェンス評価
- Authors: Jingtao Zhan, Jiahao Zhao, Jiayu Li, Yiqun Liu, Bo Zhang, Qingyao Ai, Jiaxin Mao, Hongning Wang, Min Zhang, Shaoping Ma,
- Abstract要約: 本研究では,試行錯誤プロセスにおける失敗回数に基づいて知性を評価するためのフレームワークとして,Survival Gameを紹介した。
フェールカウントの期待と分散の両方が有限である場合、新しい課題に対するソリューションを一貫して見つける能力を示す。
我々の結果は、AIシステムは単純なタスクで自律レベルを達成するが、より複雑なタスクではまだまだ遠いことを示している。
- 参考スコア(独自算出の注目度): 59.80426744891971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligence is a crucial trait for species to find solutions within a limited number of trial-and-error attempts. Building on this idea, we introduce Survival Game as a framework to evaluate intelligence based on the number of failed attempts in a trial-and-error process. Fewer failures indicate higher intelligence. When the expectation and variance of failure counts are both finite, it signals the ability to consistently find solutions to new challenges, which we define as the Autonomous Level of intelligence. Using Survival Game, we comprehensively evaluate existing AI systems. Our results show that while AI systems achieve the Autonomous Level in simple tasks, they are still far from it in more complex tasks, such as vision, search, recommendation, and language. While scaling current AI technologies might help, this would come at an astronomical cost. Projections suggest that achieving the Autonomous Level for general tasks would require $10^{26}$ parameters. To put this into perspective, loading such a massive model requires so many H100 GPUs that their total value is $10^{7}$ times that of Apple Inc.'s market value. Even with Moore's Law, supporting such a parameter scale would take $70$ years. This staggering cost highlights the complexity of human tasks and the inadequacies of current AI technologies. To further investigate this phenomenon, we conduct a theoretical analysis of Survival Game and its experimental results. Our findings suggest that human tasks possess a criticality property. As a result, Autonomous Level requires a deep understanding of the task's underlying mechanisms. Current AI systems, however, do not fully grasp these mechanisms and instead rely on superficial mimicry, making it difficult for them to reach an autonomous level. We believe Survival Game can not only guide the future development of AI but also offer profound insights into human intelligence.
- Abstract(参考訳): インテリジェンス(人工知能)は、限られた数の試行錯誤実験において、種が解決策を見つける上で重要な特徴である。
このアイデアに基づいて,試行錯誤プロセスにおける失敗回数に基づいて知性を評価するためのフレームワークとして,Survival Gameを紹介した。
失敗は高い知性を示す。
フェールカウントの期待と分散の両方が有限である場合、新しい課題に対するソリューションを一貫して見つける能力が示され、それが自律的なインテリジェンスレベルと定義されます。
Survival Gameを用いて,既存のAIシステムを総合的に評価する。
我々の結果は、AIシステムが単純なタスクで自律レベルを達成する一方で、視覚、検索、レコメンデーション、言語といったより複雑なタスクでは、まだそのレベルには程遠いことを示している。
現在のAI技術のスケーリングは役に立つかもしれないが、天文学的なコストがかかるだろう。
予想では、一般的なタスクの自律レベルを達成するには、パラメーターが10〜26ドル必要である。
このような巨大なモデルをロードするには、非常に多くのH100 GPUが必要であり、その合計値はApple Inc.の市場価値の10〜7ドルである。
ムーアの法則でさえ、そのようなパラメータスケールをサポートするには70ドルかかる。
この停滞するコストは、人間のタスクの複雑さと、現在のAI技術の不十分さを浮き彫りにする。
この現象をさらに調査するため,サバイバルゲームとその実験結果について理論的解析を行った。
以上の結果から,ヒトのタスクが臨界特性を持っていることが示唆された。
その結果、自律レベルはタスクの根底にあるメカニズムを深く理解する必要がある。
しかし、現在のAIシステムは、これらのメカニズムを完全に把握せず、表面的な模倣に依存しているため、彼らが自律的なレベルに達することは困難である。
私たちは、Survival GameはAIの将来の発展を導くだけでなく、人間の知性に深い洞察を与えることができると信じています。
関連論文リスト
- General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - AI-as-exploration: Navigating intelligence space [0.05657375260432172]
私は、AIが果たさなければならない、無視されるが中心的な科学的な役割の輪郭を明確に表現します。
AI-as-explorationの基本的な推力は、知性の候補構築ブロックを明らかにするシステムの作成と研究である。
論文 参考訳(メタデータ) (2024-01-15T21:06:20Z) - On a Functional Definition of Intelligence [0.0]
合意されたインテリジェンスの定義がなければ、"このシステムはインテリジェントか?
知性(intelligence)とは、哲学、心理学、認知科学の分野である。
我々は、その知性が実際に達成される方法とは異なる、純粋に機能的でブラックボックスな知性の定義について論じる。
論文 参考訳(メタデータ) (2023-12-15T05:46:49Z) - The Generative AI Paradox: "What It Can Create, It May Not Understand" [81.89252713236746]
生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。
同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。
一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
論文 参考訳(メタデータ) (2023-10-31T18:07:07Z) - AI for Mathematics: A Cognitive Science Perspective [86.02346372284292]
数学は人間によって開発された最も強力な概念体系の1つである。
AIの急速な進歩、特に大規模言語モデル(LLM)の進歩による推進により、そのようなシステム構築に対する新たな、広範な関心が生まれている。
論文 参考訳(メタデータ) (2023-10-19T02:00:31Z) - Suffering Toasters -- A New Self-Awareness Test for AI [0.0]
現在のインテリジェンステストはすべて、インテリジェンスの存在や欠如を示すには不十分である、と我々は主張する。
人工自己認識のための新しい手法を提案し,その実装の概要を述べる。
論文 参考訳(メタデータ) (2023-06-29T18:58:01Z) - AI Maintenance: A Robustness Perspective [91.28724422822003]
我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。
本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。
我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
論文 参考訳(メタデータ) (2023-01-08T15:02:38Z) - Challenges of Artificial Intelligence -- From Machine Learning and
Computer Vision to Emotional Intelligence [0.0]
AIは人間の支配者ではなく、支援者である、と私たちは信じています。
コンピュータビジョンはAIの開発の中心となっている。
感情は人間の知性の中心であるが、AIではほとんど使われていない。
論文 参考訳(メタデータ) (2022-01-05T06:00:22Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文 参考訳(メタデータ) (2021-07-05T12:18:17Z) - Hybrid Intelligence [4.508830262248694]
今後数十年間、人間と機械の間の労働分業の最も可能性の高いパラダイムはハイブリッド・インテリジェンスであると主張する。
このコンセプトは、人間の知性とAIの相補的な強みを利用することを目標とし、それぞれが個別にできることよりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-03T08:56:09Z) - Inductive Biases for Deep Learning of Higher-Level Cognition [108.89281493851358]
興味深い仮説は、人間と動物の知性はいくつかの原則によって説明できるということである。
この研究は、主に高いレベルとシーケンシャルな意識的処理に関心のある人を中心に、より大きなリストを考察する。
これらの特定の原則を明確にする目的は、人間の能力から恩恵を受けるAIシステムを構築するのに役立つ可能性があることである。
論文 参考訳(メタデータ) (2020-11-30T18:29:25Z) - Future Trends for Human-AI Collaboration: A Comprehensive Taxonomy of
AI/AGI Using Multiple Intelligences and Learning Styles [95.58955174499371]
我々は、複数の人間の知性と学習スタイルの様々な側面を説明し、様々なAI問題領域に影響を及ぼす可能性がある。
未来のAIシステムは、人間のユーザと互いにコミュニケーションするだけでなく、知識と知恵を効率的に交換できる。
論文 参考訳(メタデータ) (2020-08-07T21:00:13Z) - Dynamic Cognition Applied to Value Learning in Artificial Intelligence [0.0]
この分野の数人の研究者が、堅牢で有益で安全な人工知能の概念を開発しようとしている。
人工知能エージェントが人間の価値観に合わせた価値を持っていることは、最も重要である。
この問題に対する可能なアプローチは、SEDのような理論モデルを使用することである。
論文 参考訳(メタデータ) (2020-05-12T03:58:52Z) - Is Intelligence Artificial? [0.0]
本稿では,自然界,次に人工知能に適用可能な統一的な定義を提案する。
コルモゴロフの複素性理論に基づく計量が示唆され、エントロピーに関する測度が導かれる。
承認されたAIテストのバージョンは、後に 'acid test' として提示され、フリー思考プログラムが達成しようとするものかもしれない。
論文 参考訳(メタデータ) (2014-03-05T11:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。