論文の概要: Developing and Maintaining an Open-Source Repository of AI Evaluations: Challenges and Insights
- arxiv url: http://arxiv.org/abs/2507.06893v1
- Date: Wed, 09 Jul 2025 14:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.62308
- Title: Developing and Maintaining an Open-Source Repository of AI Evaluations: Challenges and Insights
- Title(参考訳): AI評価のオープンソースリポジトリの開発と管理 - 課題と展望
- Authors: Alexandra Abbas, Celia Waggoner, Justin Olive,
- Abstract要約: 本稿では,70以上のコミュニティに分散したAI評価のオープンソースリポジトリである$_evals$の8ヶ月間の実践的洞察を紹介する。
AI評価の実装とメンテナンス、ソリューション開発における重要な課題を特定します。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI evaluations have become critical tools for assessing large language model capabilities and safety. This paper presents practical insights from eight months of maintaining $inspect\_evals$, an open-source repository of 70+ community-contributed AI evaluations. We identify key challenges in implementing and maintaining AI evaluations and develop solutions including: (1) a structured cohort management framework for scaling community contributions, (2) statistical methodologies for optimal resampling and cross-model comparison with uncertainty quantification, and (3) systematic quality control processes for reproducibility. Our analysis reveals that AI evaluation requires specialized infrastructure, statistical rigor, and community coordination beyond traditional software development practices.
- Abstract(参考訳): AI評価は、大規模な言語モデル機能と安全性を評価するための重要なツールになっている。
本稿では,70以上のコミュニティに分散したAI評価のオープンソースリポジトリである$inspect\_evals$の8ヶ月間の実践的洞察を紹介する。
我々は,(1)コミュニティの貢献を拡大するための構造的コホート管理フレームワーク,(2)不確実性定量化による最適な再サンプリングとクロスモデル比較のための統計方法論,(3)再現性のための体系的品質管理プロセスなど,AI評価の実装と維持における重要な課題を特定し,ソリューションの開発を行う。
分析の結果,AI評価には,従来のソフトウェア開発プラクティスを超えて,特別なインフラ,統計的厳密さ,コミュニティの調整が必要であることが明らかになった。
関連論文リスト
- A Conceptual Framework for AI Capability Evaluations [0.0]
本稿では,AI能力評価を解析するための概念的枠組みを提案する。
広く使われている手法や用語の分析を体系化する構造化された記述的アプローチを提供する。
また、研究者は方法論的な弱点を特定し、評価を設計する実践者を支援し、政策立案者に複雑な評価の風景を精査し、比較し、ナビゲートするツールを提供する。
論文 参考訳(メタデータ) (2025-06-23T00:19:27Z) - A Systematic Review of User-Centred Evaluation of Explainable AI in Healthcare [1.57531613028502]
本研究の目的は、医療におけるXAIのユーザエクスペリエンスを特徴付ける、明確に定義された原子特性の枠組みを開発することである。
また,システム特性に基づいて評価戦略を定義するための文脈に敏感なガイドラインも提供する。
論文 参考訳(メタデータ) (2025-06-16T18:30:00Z) - Rethinking Machine Unlearning in Image Generation Models [59.697750585491264]
CatIGMUは、新しい階層的なタスク分類フレームワークである。
EvalIGMUは包括的な評価フレームワークである。
高品質な未学習データセットであるDataIGMを構築した。
論文 参考訳(メタデータ) (2025-06-03T11:25:14Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - A Unified Framework for Evaluating the Effectiveness and Enhancing the Transparency of Explainable AI Methods in Real-World Applications [2.0681376988193843]
AIモデルの特徴である"ブラックボックス"は、解釈可能性、透明性、信頼性を制約する。
本研究では,AIモデルによる説明の正確性,解釈可能性,堅牢性,公正性,完全性を評価するための統合XAI評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T05:30:10Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Standing on FURM ground -- A framework for evaluating Fair, Useful, and Reliable AI Models in healthcare systems [6.305990032645096]
Stanford Health Careは、公正で有用で信頼性の高いAIモデルを特定するための、テストと評価のメカニズムを開発した。
評価プロセスを説明し、6つのアセスメントを要約し、同様のアセスメントを行うためのフレームワークを共有します。
我々の新しい貢献 - シミュレーションによる有用性推定、持続可能性の定量化のための財務予測、倫理的評価を行うプロセス - は、他の医療システムにおいて、候補AIソリューションの実用的な評価を行うことができる。
論文 参考訳(メタデータ) (2024-02-27T03:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。