論文の概要: The case for psychometric artificial general intelligence
- arxiv url: http://arxiv.org/abs/2101.02179v1
- Date: Sun, 27 Dec 2020 23:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 20:11:38.528612
- Title: The case for psychometric artificial general intelligence
- Title(参考訳): 心理計測型人工知能の事例
- Authors: Mark McPherson
- Abstract要約: 人工知能の計測と検出に関する文献のレビューが行われます。
提案する人工知能のベンチマークとテストは、複数の基準に対して批判的に評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A short review of the literature on measurement and detection of artificial
general intelligence is made. Proposed benchmarks and tests for artificial
general intelligence are critically evaluated against multiple criteria. Based
on the findings, the most promising approaches are identified and some useful
directions for future work are proposed.
- Abstract(参考訳): 人工知能の計測と検出に関する文献を概観した。
提案する人工知能のベンチマークとテストは、複数の基準に対して批判的に評価される。
この結果から,最も有望なアプローチが特定され,今後の研究に有用な方向性が提案されている。
関連論文リスト
- Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL [20.360392791376707]
強化学習(RL)エージェントは、テストシナリオの分布よりも期待値を通じて一般的に評価される。
学習した遷移モデルと値関数を用いてオンライン木探索による決定を行うRLエージェントのテストを検討する。
本稿では,複雑なリアルタイム戦略ゲームを行うために訓練されたエージェントを評価するアプローチを用いて,知識のあるAI研究者が関与するユーザスタディを提案する。
論文 参考訳(メタデータ) (2022-06-04T18:16:05Z) - Adversarial Estimators [0.0]
我々は、敵推定器(A推定器)の理論を開発する。
そこで本研究では,A推定器の収束率をポイントワイドおよび部分同定の両方で特徴付ける。
我々の理論は、ニューラルネットワークM-推定器の一般関数の正規性ももたらしている。
論文 参考訳(メタデータ) (2022-04-22T04:39:44Z) - Recommendations on test datasets for evaluating AI solutions in
pathology [2.001521933638504]
デジタル組織像から自動的に情報を抽出するAIソリューションは、病理診断を改善するための大きな可能性を示している。
日常使用の前には, 予測性能を評価し, 規制承認を得ることが重要である。
商用AI開発者、病理学者、研究者を含む様々な利害関係者からなる委員会は、重要な側面について議論し、病理学におけるテストデータセットに関する広範な文献レビューを行った。
論文 参考訳(メタデータ) (2022-04-21T14:52:47Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Certifiable Artificial Intelligence Through Data Fusion [7.103626867766158]
本稿では,人工知能(AI)システムの採用,フィールド化,保守に関する課題をレビューし,提案する。
画像データ融合により、精度対距離を考慮したAI物体認識精度を支援する。
論文 参考訳(メタデータ) (2021-11-03T03:34:19Z) - Statistical quantification of confounding bias in predictive modelling [0.0]
未確立モデルと完全構築モデルのnull仮説を探索する部分的および完全共創テストを提案する。
このテストは、非正規および非線形依存の予測であっても、I型エラーと高い統計的パワーに対して厳格な制御を提供する。
論文 参考訳(メタデータ) (2021-11-01T10:35:24Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文 参考訳(メタデータ) (2021-05-19T04:45:07Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [89.01584399789951]
歴史的専門家の意思決定を豊富な情報源として利用することを検討します。
観察されたラベルだけで学習する制限を緩和するために活用できることを示しています。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。