論文の概要: Understanding and Benchmarking Artificial Intelligence: OpenAI's o3 Is Not AGI
- arxiv url: http://arxiv.org/abs/2501.07458v1
- Date: Mon, 13 Jan 2025 16:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:22:48.390509
- Title: Understanding and Benchmarking Artificial Intelligence: OpenAI's o3 Is Not AGI
- Title(参考訳): 人工知能の理解とベンチマーク:OpenAIのo3はAGIではない
- Authors: Rolf Pfister, Hansueli Jud,
- Abstract要約: OpenAIのo3は、インテリジェンスを測定するためのベンチマークであるARC-AGIで87.5%のハイスコアを達成した。
これにより,大規模言語モデル(LLM)に基づくシステム,特にo3は,人工知能(AGI)に対する知性や進歩を示すのか,という疑問が提起される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: OpenAI's o3 achieves a high score of 87.5 % on ARC-AGI, a benchmark proposed to measure intelligence. This raises the question whether systems based on Large Language Models (LLMs), particularly o3, demonstrate intelligence and progress towards artificial general intelligence (AGI). Building on the distinction between skills and intelligence made by Fran\c{c}ois Chollet, the creator of ARC-AGI, a new understanding of intelligence is introduced: an agent is the more intelligent, the more efficiently it can achieve the more diverse goals in the more diverse worlds with the less knowledge. An analysis of the ARC-AGI benchmark shows that its tasks represent a very specific type of problem that can be solved by massive trialling of combinations of predefined operations. This method is also applied by o3, achieving its high score through the extensive use of computing power. However, for most problems in the physical world and in the human domain, solutions cannot be tested in advance and predefined operations are not available. Consequently, massive trialling of predefined operations, as o3 does, cannot be a basis for AGI - instead, new approaches are required that can reliably solve a wide variety of problems without existing skills. To support this development, a new benchmark for intelligence is outlined that covers a much higher diversity of unknown tasks to be solved, thus enabling a comprehensive assessment of intelligence and of progress towards AGI.
- Abstract(参考訳): OpenAIのo3は、インテリジェンスを測定するためのベンチマークであるARC-AGIで87.5%のハイスコアを達成した。
これにより,Large Language Models (LLMs) に基づくシステム,特にo3は,人工知能(AGI)へのインテリジェンスと進歩を示すのか,という疑問が提起される。
ARC-AGIの創始者であるFran\c{c}ois Chollet氏によるスキルとインテリジェンスの区別に基づいて、エージェントはより知性が高く、より多様で多様な目標をより少ない知識で達成することができる、という新たなインテリジェンスの理解が導入された。
ARC-AGIベンチマークの解析により、そのタスクは、事前定義された操作の組み合わせの大規模な試行によって解決できる、非常に特殊なタイプの問題を表していることが示された。
この方法はo3にも適用され、計算能力の広範な利用により高いスコアを達成している。
しかし、物理的世界や人間の領域におけるほとんどの問題に対して、事前にソリューションをテストすることはできず、事前定義された操作は利用できない。
その結果、o3のように事前定義された操作の大規模な試行はAGIの基礎にはならない。
この開発を支援するために、未知のタスクのより高度な多様性をカバーする新しいインテリジェンスベンチマークを概説し、インテリジェンスを総合的に評価し、AGIに向けた進歩を可能にする。
関連論文リスト
- Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Evaluation of OpenAI o1: Opportunities and Challenges of AGI [112.0812059747033]
o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。
このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。
総合的な結果は、人工知能への大きな進歩を示している。
論文 参考訳(メタデータ) (2024-09-27T06:57:00Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - General Purpose Artificial Intelligence Systems (GPAIS): Properties,
Definition, Taxonomy, Societal Implications and Responsible Governance [16.030931070783637]
汎用人工知能システム(GPAIS)は、これらのAIシステムを指すものとして定義されている。
これまで、人工知能の可能性は、まるで人間であるかのように知的タスクを実行するのに十分強力であり、あるいはそれを改善することさえ可能であり、いまだに願望、フィクションであり、我々の社会にとっての危険であると考えられてきた。
本研究は,GPAISの既存の定義について論じ,その特性や限界に応じて,GPAISの種類間で段階的な分化を可能にする新しい定義を提案する。
論文 参考訳(メタデータ) (2023-07-26T16:35:48Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Thinking Fast and Slow in AI: the Role of Metacognition [35.114607887343105]
最先端のAIには、(人間)インテリジェンスの概念に自然に含まれる多くの能力がない。
私たちは、人間がこれらの能力を持つことができるメカニズムをよりよく研究することで、これらの能力でAIシステムを構築する方法を理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-05T06:05:38Z) - A User-Centred Framework for Explainable Artificial Intelligence in
Human-Robot Interaction [70.11080854486953]
本稿では,XAIのソーシャル・インタラクティブな側面に着目したユーザ中心型フレームワークを提案する。
このフレームワークは、エキスパートでないユーザのために考えられた対話型XAIソリューションのための構造を提供することを目的としている。
論文 参考訳(メタデータ) (2021-09-27T09:56:23Z) - Hybrid Intelligence [4.508830262248694]
今後数十年間、人間と機械の間の労働分業の最も可能性の高いパラダイムはハイブリッド・インテリジェンスであると主張する。
このコンセプトは、人間の知性とAIの相補的な強みを利用することを目標とし、それぞれが個別にできることよりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-03T08:56:09Z) - Explainable Artificial Intelligence Approaches: A Survey [0.22940141855172028]
人工知能ベースの「ブラックボックス」システム/モデルからの決定の説明力の欠如は、ハイステークアプリケーションでAIを採用するための重要な障害です。
相互ケーススタディ/タスクにより、一般的なXAI(Explainable Artificial Intelligence)手法を実証します。
競争優位性を多角的に分析します。
我々はXAIを媒体として、責任や人間中心のAIへの道を推奨する。
論文 参考訳(メタデータ) (2021-01-23T06:15:34Z) - Future Trends for Human-AI Collaboration: A Comprehensive Taxonomy of
AI/AGI Using Multiple Intelligences and Learning Styles [95.58955174499371]
我々は、複数の人間の知性と学習スタイルの様々な側面を説明し、様々なAI問題領域に影響を及ぼす可能性がある。
未来のAIシステムは、人間のユーザと互いにコミュニケーションするだけでなく、知識と知恵を効率的に交換できる。
論文 参考訳(メタデータ) (2020-08-07T21:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。