論文の概要: Integration of cognitive tasks into artificial general intelligence test
for large models
- arxiv url: http://arxiv.org/abs/2402.02547v2
- Date: Wed, 6 Mar 2024 02:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:22:00.996019
- Title: Integration of cognitive tasks into artificial general intelligence test
for large models
- Title(参考訳): 大規模モデルのための認知タスクの人工知能テストへの統合
- Authors: Youzhi Qu, Chen Wei, Penghui Du, Wenxin Che, Chi Zhang, Wanli Ouyang,
Yatao Bian, Feiyang Xu, Bin Hu, Kai Du, Haiyan Wu, Jia Liu, Quanying Liu
- Abstract要約: 我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
- 参考スコア(独自算出の注目度): 54.72053150920186
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: During the evolution of large models, performance evaluation is necessarily
performed to assess their capabilities and ensure safety before practical
application. However, current model evaluations mainly rely on specific tasks
and datasets, lacking a united framework for assessing the multidimensional
intelligence of large models. In this perspective, we advocate for a
comprehensive framework of cognitive science-inspired artificial general
intelligence (AGI) tests, aimed at fulfilling the testing needs of large models
with enhanced capabilities. The cognitive science-inspired AGI tests encompass
the full spectrum of intelligence facets, including crystallized intelligence,
fluid intelligence, social intelligence, and embodied intelligence. To assess
the multidimensional intelligence of large models, the AGI tests consist of a
battery of well-designed cognitive tests adopted from human intelligence tests,
and then naturally encapsulates into an immersive virtual community. We propose
increasing the complexity of AGI testing tasks commensurate with advancements
in large models and emphasizing the necessity for the interpretation of test
results to avoid false negatives and false positives. We believe that cognitive
science-inspired AGI tests will effectively guide the targeted improvement of
large models in specific dimensions of intelligence and accelerate the
integration of large models into human society.
- Abstract(参考訳): 大規模モデルの進化の間、性能評価は必ずその能力を評価し、実用化前に安全性を確保するために行われる。
しかし、現在のモデル評価は主に特定のタスクとデータセットに依存しており、大規模モデルの多次元知性を評価するための統一的な枠組みが欠如している。
本稿では,認知科学にヒントを得た人工知能(AGI)テストの包括的枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
大規模モデルの多次元インテリジェンスを評価するために、AGIテストは人間のインテリジェンステストから採用されたよく設計された認知テストの電池で構成され、自然に没入型の仮想コミュニティにカプセル化される。
本稿では,大規模モデルの進歩に伴うagiテストタスクの複雑さの増大と,偽陰性や偽陽性を避けるためにテスト結果の解釈の必要性を強調する。
認知科学にインスパイアされたAGIテストは、特定の知能の次元における大規模モデルのターゲット改善を効果的に導き、大規模モデルの人間社会への統合を加速させると信じている。
関連論文リスト
- Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - TrainerAgent: Customizable and Efficient Model Training through
LLM-Powered Multi-Agent System [14.019244136838017]
TrainerAgentは、タスク、データ、モデル、サーバーエージェントを含むマルチエージェントフレームワークである。
これらのエージェントは、ユーザ定義のタスク、入力データ、要求(例えば、精度、速度)を分析し、データとモデルの両方の観点からそれらを最適化して満足なモデルを取得し、最終的にこれらのモデルをオンラインサービスとしてデプロイする。
本研究は,従来のモデル開発と比較して,効率と品質が向上した望ましいモデルの実現において,大きな進歩を示すものである。
論文 参考訳(メタデータ) (2023-11-11T17:39:24Z) - Designing Novel Cognitive Diagnosis Models via Evolutionary
Multi-Objective Neural Architecture Search [13.9289351255891]
進化的多目的ニューラルアーキテクチャサーチ(NAS)による新しい認知診断モデルの自動設計を提案する。
2つの実世界のデータセットに対する実験により、提案手法によって探索された認知診断モデルは、既存のモデルよりもはるかに優れた性能を示し、人間設計モデルと同じくらい優れた解釈性を有することが示された。
論文 参考訳(メタデータ) (2023-07-10T09:09:26Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Beyond Interpretable Benchmarks: Contextual Learning through Cognitive
and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。
通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文 参考訳(メタデータ) (2022-12-04T08:30:04Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - QKSA: Quantum Knowledge Seeking Agent [0.0]
量子知識探索エージェント(QKSA)の実装に向けたモチベーションとコアテーマについて述べる。
QKSAは、古典的および量子力学のモデル化に使用できる一般的な強化学習エージェントである。
論文 参考訳(メタデータ) (2021-07-03T13:07:58Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。