Fugu-MT 論文翻訳(概要): The case for psychometric artificial general intelligence

関連論文リスト

General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文参考訳（メタデータ） (2025-02-27T20:21:36Z)
AIGCOIQA2024: Perceptual Quality Assessment of AI Generated Omnidirectional Images [70.42666704072964]
我々はAI生成の全方位画像IQAデータベースAIIGCOIQA2024を構築した。 3つの視点から人間の視覚的嗜好を評価するために、主観的IQA実験を行った。我々は,データベース上での最先端IQAモデルの性能を評価するためのベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-04-01T10:08:23Z)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。新たに登場したAI生成の文献レビューも評価されている。この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文参考訳（メタデータ） (2024-02-20T11:28:50Z)
Integration of cognitive tasks into artificial general intelligence test for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文参考訳（メタデータ） (2024-02-04T15:50:42Z)
Benchmarks for Physical Reasoning AI [28.02418565463541]
既存のベンチマークの概要と、AIシステムの物理的推論能力を測定するためのソリューションアプローチについて説明する。物理推論タスクにおけるアルゴリズム性能をテストするためのベンチマークを選択する。提示された物理推論ベンチマークをサブカテゴリにグループ化し、より狭い一般AIエージェントをこれらのグループで最初にテストできるようにします。
論文参考訳（メタデータ） (2023-12-17T14:24:03Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
AI and Non AI Assessments for Dementia [11.5631890541199]
人工知能領域の最近の進歩は、様々な種類のAIによる認知症評価の開発につながっている。本論文は,認知症認知のための既存の解決策を臨床医に説明するための文献のギャップを埋めるものである。認知症に関するAIおよび非AIアセスメントに関する論文のレビューに続いて、AIと医療コミュニティの両方で、さまざまな認知症アセスメントに関する貴重な情報を提供する。
論文参考訳（メタデータ） (2023-06-30T03:28:47Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
An Experimental Investigation into the Evaluation of Explainability Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文参考訳（メタデータ） (2023-05-25T08:07:07Z)
A System's Approach Taxonomy for User-Centred XAI: A Survey [0.6882042556551609]
本稿では,一般システム理論の原理に基づく総合的,包括的でユーザ中心のXAI分類法を提案する。これは、開発者とエンドユーザの両方を含むすべてのユーザタイプに対するXAIアプローチの適切性を評価する基盤を提供する。
論文参考訳（メタデータ） (2023-03-06T00:50:23Z)
Plugin estimators for selective classification with out-of-distribution detection [67.28226919253214]
現実世界の分類器は、信頼性の低いサンプルの予測を控えることの恩恵を受けることができる。これらの設定は、選択分類(SC)とアウト・オブ・ディストリビューション(OOD)の検出文献において広範囲に研究されている。 OOD検出による選択分類に関する最近の研究は、これらの問題の統一的な研究を議論している。本稿では,既存の手法を理論的に基礎づけ,有効かつ一般化したSCOD用プラグイン推定器を提案する。
論文参考訳（メタデータ） (2023-01-29T07:45:17Z)
Inclusive Artificial Intelligence [27.09425461169165]
生成的AIを評価し比較する方法は、仮説的代表者に役立つ応答を動機付ける。インクルーシブAIを優先する代替評価手法を提案する。
論文参考訳（メタデータ） (2022-12-24T02:13:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: The case for psychometric artificial general intelligence

関連論文リスト