論文の概要: Integration of cognitive tasks into artificial general intelligence test
for large models
- arxiv url: http://arxiv.org/abs/2402.02547v1
- Date: Sun, 4 Feb 2024 15:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:59:41.959379
- Title: Integration of cognitive tasks into artificial general intelligence test
for large models
- Title(参考訳): 大規模モデルのための認知タスクの人工知能テストへの統合
- Authors: Youzhi Qu, Chen Wei, Penghui Du, Wenxin Che, Chi Zhang, Wanli Ouyang,
Yatao Bian, Feiyang Xu, Bin Hu, Kai Du, Haiyan Wu, Jia Liu, Quanying Liu
- Abstract要約: 我々は,大規模言語モデルとマルチモーダル大規模モデルのテストニーズを満たすために,人工知能(AGI)テストの包括的なフレームワークを提唱する。
AGIテストは認知科学と自然言語処理を橋渡しし、知能のあらゆる側面を包含する。
我々は認知科学にインスパイアされたAGIテストが、特定の知能の次元における大きなモデルの改善を効果的に導くと信じている。
- 参考スコア(独自算出の注目度): 54.72053150920186
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: During the evolution of large models, performance evaluation is necessarily
performed on the intermediate models to assess their capabilities, and on the
well-trained model to ensure safety before practical application. However,
current model evaluations mainly rely on specific tasks and datasets, lacking a
united framework for assessing the multidimensional intelligence of large
models. In this perspective, we advocate for a comprehensive framework of
artificial general intelligence (AGI) test, aimed at fulfilling the testing
needs of large language models and multi-modal large models with enhanced
capabilities. The AGI test framework bridges cognitive science and natural
language processing to encompass the full spectrum of intelligence facets,
including crystallized intelligence, a reflection of amassed knowledge and
experience; fluid intelligence, characterized by problem-solving and adaptive
reasoning; social intelligence, signifying comprehension and adaptation within
multifaceted social scenarios; and embodied intelligence, denoting the ability
to interact with its physical environment. To assess the multidimensional
intelligence of large models, the AGI test consists of a battery of
well-designed cognitive tests adopted from human intelligence tests, and then
naturally encapsulates into an immersive virtual community. We propose that the
complexity of AGI testing tasks should increase commensurate with the
advancements in large models. We underscore the necessity for the
interpretation of test results to avoid false negatives and false positives. We
believe that cognitive science-inspired AGI tests will effectively guide the
targeted improvement of large models in specific dimensions of intelligence and
accelerate the integration of large models into human society.
- Abstract(参考訳): 大規模モデルの進化の間、性能評価は、その能力を評価するための中間モデルと、実用化前に安全性を確保するための十分に訓練されたモデルで必ず行われる。
しかし、現在のモデル評価は主に特定のタスクとデータセットに依存しており、大規模モデルの多次元知性を評価するための統一的な枠組みが欠如している。
この観点からは,大規模言語モデルと拡張機能を備えたマルチモーダル大規模モデルのテストニーズを満たすことを目的とした,汎用人工知能(agi)テストの包括的なフレームワークを提唱する。
AGIテストフレームワークは、認知科学と自然言語処理を橋渡しして、結晶化された知性、大量の知識と経験の反映、問題解決と適応的推論を特徴とする流体知性、社会知性、多面的な社会的シナリオにおける理解と適応の象徴、そして身体的な環境と対話する能力を示すインテリジェンスを含む、すべての知能の側面を包含する。
大規模モデルの多次元知性を評価するために、agiテストは、人間の知能テストから採用された設計された認知テストのバッテリからなり、自然に没入型仮想コミュニティにカプセル化される。
大規模モデルの進歩に伴い, agiテストタスクの複雑さが高まることを示唆する。
偽陰性や偽陽性を避けるために、テスト結果の解釈の必要性を強調する。
認知科学にインスパイアされたAGIテストは、特定の知能の次元における大規模モデルのターゲット改善を効果的に導き、大規模モデルの人間社会への統合を加速させると信じている。
関連論文リスト
- AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems [26.605694684145313]
本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。
このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。
私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
論文 参考訳(メタデータ) (2024-11-09T11:15:17Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Understanding and Evaluating Human Preferences for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Designing Novel Cognitive Diagnosis Models via Evolutionary
Multi-Objective Neural Architecture Search [13.9289351255891]
進化的多目的ニューラルアーキテクチャサーチ(NAS)による新しい認知診断モデルの自動設計を提案する。
2つの実世界のデータセットに対する実験により、提案手法によって探索された認知診断モデルは、既存のモデルよりもはるかに優れた性能を示し、人間設計モデルと同じくらい優れた解釈性を有することが示された。
論文 参考訳(メタデータ) (2023-07-10T09:09:26Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Beyond Interpretable Benchmarks: Contextual Learning through Cognitive
and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。
通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文 参考訳(メタデータ) (2022-12-04T08:30:04Z) - QKSA: Quantum Knowledge Seeking Agent [0.0]
量子知識探索エージェント(QKSA)の実装に向けたモチベーションとコアテーマについて述べる。
QKSAは、古典的および量子力学のモデル化に使用できる一般的な強化学習エージェントである。
論文 参考訳(メタデータ) (2021-07-03T13:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。