論文の概要: Integration of cognitive tasks into artificial general intelligence test
for large models
- arxiv url: http://arxiv.org/abs/2402.02547v2
- Date: Wed, 6 Mar 2024 02:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:22:00.996019
- Title: Integration of cognitive tasks into artificial general intelligence test
for large models
- Title(参考訳): 大規模モデルのための認知タスクの人工知能テストへの統合
- Authors: Youzhi Qu, Chen Wei, Penghui Du, Wenxin Che, Chi Zhang, Wanli Ouyang,
Yatao Bian, Feiyang Xu, Bin Hu, Kai Du, Haiyan Wu, Jia Liu, Quanying Liu
- Abstract要約: 我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
- 参考スコア(独自算出の注目度): 54.72053150920186
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: During the evolution of large models, performance evaluation is necessarily
performed to assess their capabilities and ensure safety before practical
application. However, current model evaluations mainly rely on specific tasks
and datasets, lacking a united framework for assessing the multidimensional
intelligence of large models. In this perspective, we advocate for a
comprehensive framework of cognitive science-inspired artificial general
intelligence (AGI) tests, aimed at fulfilling the testing needs of large models
with enhanced capabilities. The cognitive science-inspired AGI tests encompass
the full spectrum of intelligence facets, including crystallized intelligence,
fluid intelligence, social intelligence, and embodied intelligence. To assess
the multidimensional intelligence of large models, the AGI tests consist of a
battery of well-designed cognitive tests adopted from human intelligence tests,
and then naturally encapsulates into an immersive virtual community. We propose
increasing the complexity of AGI testing tasks commensurate with advancements
in large models and emphasizing the necessity for the interpretation of test
results to avoid false negatives and false positives. We believe that cognitive
science-inspired AGI tests will effectively guide the targeted improvement of
large models in specific dimensions of intelligence and accelerate the
integration of large models into human society.
- Abstract(参考訳): 大規模モデルの進化の間、性能評価は必ずその能力を評価し、実用化前に安全性を確保するために行われる。
しかし、現在のモデル評価は主に特定のタスクとデータセットに依存しており、大規模モデルの多次元知性を評価するための統一的な枠組みが欠如している。
本稿では,認知科学にヒントを得た人工知能(AGI)テストの包括的枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
大規模モデルの多次元インテリジェンスを評価するために、AGIテストは人間のインテリジェンステストから採用されたよく設計された認知テストの電池で構成され、自然に没入型の仮想コミュニティにカプセル化される。
本稿では,大規模モデルの進歩に伴うagiテストタスクの複雑さの増大と,偽陰性や偽陽性を避けるためにテスト結果の解釈の必要性を強調する。
認知科学にインスパイアされたAGIテストは、特定の知能の次元における大規模モデルのターゲット改善を効果的に導き、大規模モデルの人間社会への統合を加速させると信じている。
関連論文リスト
- AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems [26.605694684145313]
本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。
このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。
私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
論文 参考訳(メタデータ) (2024-11-09T11:15:17Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Understanding and Evaluating Human Preferences for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Designing Novel Cognitive Diagnosis Models via Evolutionary
Multi-Objective Neural Architecture Search [13.9289351255891]
進化的多目的ニューラルアーキテクチャサーチ(NAS)による新しい認知診断モデルの自動設計を提案する。
2つの実世界のデータセットに対する実験により、提案手法によって探索された認知診断モデルは、既存のモデルよりもはるかに優れた性能を示し、人間設計モデルと同じくらい優れた解釈性を有することが示された。
論文 参考訳(メタデータ) (2023-07-10T09:09:26Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Beyond Interpretable Benchmarks: Contextual Learning through Cognitive
and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。
通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文 参考訳(メタデータ) (2022-12-04T08:30:04Z) - QKSA: Quantum Knowledge Seeking Agent [0.0]
量子知識探索エージェント(QKSA)の実装に向けたモチベーションとコアテーマについて述べる。
QKSAは、古典的および量子力学のモデル化に使用できる一般的な強化学習エージェントである。
論文 参考訳(メタデータ) (2021-07-03T13:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。