Fugu-MT 論文翻訳(概要): General Scales Unlock AI Evaluation with Explanatory and Predictive Power

論文の概要: General Scales Unlock AI Evaluation with Explanatory and Predictive Power

arxiv url: http://arxiv.org/abs/2503.06378v1
Date: Sun, 09 Mar 2025 01:13:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.347932
Title: General Scales Unlock AI Evaluation with Explanatory and Predictive Power
Title（参考訳）: 説明力と予測力でAI評価をアンロックする一般尺度
Authors: Lexin Zhou, Lorenzo Pacchiardi, Fernando Martínez-Plumed, Katherine M. Collins, Yael Moros-Daval, Seraphina Zhang, Qinlin Zhao, Yitian Huang, Luning Sun, Jonathan E. Prunty, Zongqian Li, Pablo Sánchez-García, Kexin Jiang Chen, Pablo A. M. Casares, Jiyun Zu, John Burden, Behzad Mehrbakhsh, David Stillwell, Manuel Cebrian, Jindong Wang, Peter Henderson, Sherry Tongshuang Wu, Patrick C. Kyllonen, Lucy Cheke, Xing Xie, José Hernández-Orallo,
Abstract要約: 私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。 15の大規模言語モデルと63のタスクで説明された高説明力は、需要と能力プロファイルの検査から解放される。驚くべきことに、インスタンスレベルでの高い予測力は、これらの要求レベルを使用して可能になる。
参考スコア（独自算出の注目度）: 57.7995945974989
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ensuring safe and effective use of AI requires understanding and anticipating its performance on novel tasks, from advanced scientific challenges to transformed workplace activities. So far, benchmarking has guided progress in AI, but it has offered limited explanatory and predictive power for general-purpose AI systems, given the low transferability across diverse tasks. In this paper, we introduce general scales for AI evaluation that can explain what common AI benchmarks really measure, extract ability profiles of AI systems, and predict their performance for new task instances, in- and out-of-distribution. Our fully-automated methodology builds on 18 newly-crafted rubrics that place instance demands on general scales that do not saturate. Illustrated for 15 large language models and 63 tasks, high explanatory power is unleashed from inspecting the demand and ability profiles, bringing insights on the sensitivity and specificity exhibited by different benchmarks, and how knowledge, metacognition and reasoning are affected by model size, chain-of-thought and distillation. Surprisingly, high predictive power at the instance level becomes possible using these demand levels, providing superior estimates over black-box baseline predictors based on embeddings or finetuning, especially in out-of-distribution settings (new tasks and new benchmarks). The scales, rubrics, battery, techniques and results presented here represent a major step for AI evaluation, underpinning the reliable deployment of AI in the years ahead.
Abstract（参考訳）: 安全で効果的なAIの使用を保証するには、高度な科学的課題から職場活動の変革に至るまで、新しいタスクにおけるパフォーマンスを理解し、予測する必要がある。これまでのところ、ベンチマークはAIの進歩を導いてきたが、多種多様なタスクにまたがる転送性が低いため、汎用AIシステムには限られた説明力と予測力を提供している。本稿では、AI評価のための一般的な尺度を紹介し、一般的なAIベンチマークが実際に何を計測しているかを説明し、AIシステムの能力プロファイルを抽出し、新しいタスクインスタンス、イン・オブ・アウト・ディストリビューションのパフォーマンスを予測する。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。 15の大規模言語モデルと63のタスクのために図示された高説明力は、需要と能力プロファイルの検査から解放され、異なるベンチマークで示される感度と特異性、そして、知識、メタ認知、推論がモデルサイズ、連鎖、蒸留によってどのように影響を受けるかについての洞察をもたらす。驚くべきことに、インスタンスレベルでの高い予測パワーは、これらの需要レベルを使用して実現され、特に配布外設定(新しいタスクと新しいベンチマーク)において、埋め込みや微調整に基づくブラックボックスベースライン予測よりも優れた見積もりを提供する。ここで提示されるスケール、ルーリック、バッテリ、テクニック、そして成果は、AI評価の大きなステップであり、今後数年間のAIの信頼性の高い展開を支えている。

関連論文リスト

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents [49.67355440164857]
AIRS-Benchは、最先端の機械学習論文から得られた20のタスクからなるスイートである。 Airs-Benchタスクは、研究ライフサイクル全体のエージェント能力を評価する。本稿では,AIRS-Benchタスク定義と評価コードをオープンソースとして公開し,自律科学研究のさらなる発展を促す。
論文参考訳（メタデータ） (2026-02-06T16:45:02Z)
The next question after Turing's question: Introducing the Grow-AI test [51.56484100374058]
本研究は,GROW-AIと呼ばれる人工知能評価の枠組みを拡張することを目的としている。 GROW-AIは、チューリングテストの自然な後継者である"Can Machine grow up? この作品の独創性は、人間の世界から人工知能への「成長」過程の概念的な変換にある。
論文参考訳（メタデータ） (2025-08-22T10:19:42Z)
Perceptual Quality Assessment for Embodied AI [66.96928199019129]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文参考訳（メタデータ） (2025-05-22T15:51:07Z)
AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence [0.0]
本稿では,AGITB(Artificial General Intelligence Test Bed)を紹介する。 AGITBは、シンボル表現や事前訓練に頼ることなく、時間にわたってバイナリ信号を予測できるモデルの能力を通じて、インテリジェンスを評価する。テストベッドは、事前のバイアスを前提とせず、意味的な意味から独立して動作し、残酷な力や記憶によって解決不可能性を確保する。
論文参考訳（メタデータ） (2025-04-06T10:01:15Z)
Work in Progress: AI-Powered Engineering-Bridging Theory and Practice [0.0]
本稿では,システム工学の重要なステップを自動化し,改善する上で,生成AIがいかに役立つかを考察する。 INCOSEの"よい要件"基準に基づいて、システム要件を分析するAIの能力を調べる。この研究は、エンジニアリングプロセスを合理化し、学習結果を改善するAIの可能性を評価することを目的としている。
論文参考訳（メタデータ） (2025-02-06T17:42:00Z)
AI-driven Wireless Positioning: Fundamentals, Standards, State-of-the-art, and Challenges [15.375888684755582]
AI/機械学習(ML)ベースの細胞位置決めは、従来の手法の限界を克服するための重要な技術になりつつある。我々は、最先端のSOTA(State-of-the-art)研究を、AI/ML支援位置決めとAI/MLベース位置決めの2つの主要なクラスに分類し、まとめる。我々は、AI駆動の無線位置決めの課題と機会をまとめて結論付ける。
論文参考訳（メタデータ） (2025-01-24T23:09:11Z)
ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文参考訳（メタデータ） (2024-10-29T21:38:42Z)
GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文参考訳（メタデータ） (2024-06-10T08:18:07Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
General Purpose Artificial Intelligence Systems (GPAIS): Properties, Definition, Taxonomy, Societal Implications and Responsible Governance [16.030931070783637]
汎用人工知能システム(GPAIS)は、これらのAIシステムを指すものとして定義されている。これまで、人工知能の可能性は、まるで人間であるかのように知的タスクを実行するのに十分強力であり、あるいはそれを改善することさえ可能であり、いまだに願望、フィクションであり、我々の社会にとっての危険であると考えられてきた。本研究は,GPAISの既存の定義について論じ,その特性や限界に応じて,GPAISの種類間で段階的な分化を可能にする新しい定義を提案する。
論文参考訳（メタデータ） (2023-07-26T16:35:48Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
The Role of AI in Drug Discovery: Challenges, Opportunities, and Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文参考訳（メタデータ） (2022-12-08T23:23:39Z)
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-03-14T04:26:40Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)
AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文参考訳（メタデータ） (2020-04-30T11:08:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。