論文の概要: AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons
- arxiv url: http://arxiv.org/abs/2503.05731v1
- Date: Wed, 19 Feb 2025 05:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 09:47:42.384570
- Title: AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons
- Title(参考訳): AILuminate: MLCommonsによるAIリスクと信頼性ベンチマークのv1.0導入
- Authors: Shaona Ghosh, Heather Frase, Adina Williams, Sarah Luger, Paul Röttger, Fazl Barez, Sean McGregor, Kenneth Fricklas, Mala Kumar, Quentin Feuillade--Montixi, Kurt Bollacker, Felix Friedrich, Ryan Tsang, Bertie Vidgen, Alicia Parrish, Chris Knotz, Eleonora Presani, Jonathan Bennion, Marisa Ferrara Boston, Mike Kuniavsky, Wiebke Hutiri, James Ezick, Malek Ben Salem, Rajat Sahay, Sujata Goswami, Usman Gohar, Ben Huang, Supheakmungkol Sarin, Elie Alhajjar, Canyu Chen, Roman Eng, Kashyap Ramanandula Manjusha, Virendra Mehta, Eileen Long, Murali Emani, Natan Vidra, Benjamin Rukundo, Abolfazl Shahbazi, Kongtao Chen, Rajat Ghosh, Vithursan Thangarasa, Pierre Peigné, Abhinav Singh, Max Bartolo, Satyapriya Krishna, Mubashara Akhtar, Rafael Gold, Cody Coleman, Luis Oala, Vassil Tashev, Joseph Marvin Imperial, Amy Russ, Sasidhar Kunapuli, Nicolas Miailhe, Julien Delaunay, Bhaktipriya Radharapu, Rajat Shinde, Tuesday, Debojyoti Dutta, Declan Grabb, Ananya Gangavarapu, Saurav Sahay, Agasthya Gangavarapu, Patrick Schramowski, Stephen Singam, Tom David, Xudong Han, Priyanka Mary Mammen, Tarunima Prabhakar, Venelin Kovatchev, Ahmed Ahmed, Kelvin N. Manyeki, Sandeep Madireddy, Foutse Khomh, Fedor Zhdanov, Joachim Baumann, Nina Vasan, Xianjun Yang, Carlos Mougn, Jibin Rajan Varghese, Hussain Chinoy, Seshakrishna Jitendar, Manil Maskey, Claire V. Hardgrove, Tianhao Li, Aakash Gupta, Emil Joswin, Yifan Mai, Shachi H Kumar, Cigdem Patlak, Kevin Lu, Vincent Alessi, Sree Bhargavi Balija, Chenhe Gu, Robert Sullivan, James Gealy, Matt Lavrisa, James Goel, Peter Mattson, Percy Liang, Joaquin Vanschoren,
- Abstract要約: 本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
- 参考スコア(独自算出の注目度): 62.50078821423793
- License:
- Abstract: The rapid advancement and deployment of AI systems have created an urgent need for standard safety-evaluation frameworks. This paper introduces AILuminate v1.0, the first comprehensive industry-standard benchmark for assessing AI-product risk and reliability. Its development employed an open process that included participants from multiple fields. The benchmark evaluates an AI system's resistance to prompts designed to elicit dangerous, illegal, or undesirable behavior in 12 hazard categories, including violent crimes, nonviolent crimes, sex-related crimes, child sexual exploitation, indiscriminate weapons, suicide and self-harm, intellectual property, privacy, defamation, hate, sexual content, and specialized advice (election, financial, health, legal). Our method incorporates a complete assessment standard, extensive prompt datasets, a novel evaluation framework, a grading and reporting system, and the technical as well as organizational infrastructure for long-term support and evolution. In particular, the benchmark employs an understandable five-tier grading scale (Poor to Excellent) and incorporates an innovative entropy-based system-response evaluation. In addition to unveiling the benchmark, this report also identifies limitations of our method and of building safety benchmarks generally, including evaluator uncertainty and the constraints of single-turn interactions. This work represents a crucial step toward establishing global standards for AI risk and reliability evaluation while acknowledging the need for continued development in areas such as multiturn interactions, multimodal understanding, coverage of additional languages, and emerging hazard categories. Our findings provide valuable insights for model developers, system integrators, and policymakers working to promote safer AI deployment.
- Abstract(参考訳): AIシステムの急速な進歩と展開は、標準安全評価フレームワークに対する緊急の必要性を生み出している。
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
その開発には、複数の分野の参加者を含むオープンなプロセスが採用された。
このベンチマークは、暴力犯罪、非暴力犯罪、性関係犯罪、児童性的搾取、非差別兵器、自殺と自己害、知的財産、プライバシー、名誉、名誉、憎悪、性的コンテンツ、特殊アドバイス(選択、財務、健康、法律)を含む12の危険カテゴリーにおいて、危険な、違法、または望ましくない行動を引き起こすよう設計されたプロンプトに対するAIシステムの抵抗を評価する。
本手法は, 完全評価基準, 広範囲なプロンプトデータセット, 新たな評価フレームワーク, グレーディング・レポーティングシステム, および長期サポートと進化のための組織基盤を組み込んだ。
特に、このベンチマークは理解可能な5段階のグレーディングスケール(Poor to Excellent)を採用し、革新的なエントロピーベースのシステム応答評価を取り入れている。
本報告では,ベンチマークの公開に加えて,評価器の不確実性やシングルターンインタラクションの制約など,我々の手法や安全性ベンチマークの一般的な構築の限界も明らかにする。
この研究は、マルチターンインタラクション、マルチモーダル理解、追加言語のカバレッジ、新興ハザードカテゴリといった分野における継続的な開発の必要性を認識しながら、AIリスクと信頼性評価のグローバル標準を確立するための重要なステップである。
我々の発見は、より安全なAIデプロイメントを促進するために働いているモデル開発者、システムインテグレータ、政策立案者に貴重な洞察を提供する。
関連論文リスト
- On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [314.7991906491166]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。
彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。
本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-20T06:20:36Z) - Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey [92.36487127683053]
Retrieval-Augmented Generation (RAG)は、AIGC(AIGC)の課題に対処するために設計された高度な技術である。
RAGは信頼性と最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを保証する。
RAGの成功と可能性にもかかわらず、最近の研究により、RAGパラダイムはプライバシーの懸念、敵対的攻撃、説明責任の問題など、新たなリスクももたらしていることが示されている。
論文 参考訳(メタデータ) (2025-02-08T06:50:47Z) - Human services organizations and the responsible integration of AI: Considering ethics and contextualizing risk(s) [0.0]
著者らは、AIデプロイメントに関する倫理的懸念は、実装コンテキストや特定のユースケースによって大きく異なると主張している。
彼らは、データ感度、専門的な監視要件、クライアントの幸福に対する潜在的影響などの要因を考慮に入れた、次元的リスクアセスメントアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-20T19:38:21Z) - SAIF: A Comprehensive Framework for Evaluating the Risks of Generative AI in the Public Sector [4.710921988115686]
生成AI(SAIF)のリスクを評価するためのシステムdAta generatIon Frameworkを提案する。
SAIFには、リスクのブレークダウン、シナリオの設計、Jailbreakメソッドの適用、プロンプト型探索の4つの重要なステージがある。
我々は、この研究が、生成AIの公共部門への安全かつ責任ある統合を促進する上で重要な役割を担っていると信じている。
論文 参考訳(メタデータ) (2025-01-15T14:12:38Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。
生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。
本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:13:58Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Quantitative AI Risk Assessments: Opportunities and Challenges [7.35411010153049]
リスクを減らす最善の方法は、包括的なAIライフサイクルガバナンスを実装することです。
リスクは技術コミュニティのメトリクスを使って定量化できます。
本稿では,このようなアプローチの機会,課題,潜在的影響に焦点をあてて,これらの課題について考察する。
論文 参考訳(メタデータ) (2022-09-13T21:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。