論文の概要: What Makes an Evaluation Useful? Common Pitfalls and Best Practices
- arxiv url: http://arxiv.org/abs/2503.23424v1
- Date: Sun, 30 Mar 2025 12:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.113202
- Title: What Makes an Evaluation Useful? Common Pitfalls and Best Practices
- Title(参考訳): 評価が役に立つものは何か? 共通の落とし穴とベストプラクティス
- Authors: Gil Gekker, Meirav Segal, Dan Lahav, Omer Nevo,
- Abstract要約: 本稿では、脅威モデリングと評価設計を結びつける初期思考プロセスのステップについて論じる。
評価に有用な特徴とパラメータを提供する。
- 参考スコア(独自算出の注目度): 3.4740704830599385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following the rapid increase in Artificial Intelligence (AI) capabilities in recent years, the AI community has voiced concerns regarding possible safety risks. To support decision-making on the safe use and development of AI systems, there is a growing need for high-quality evaluations of dangerous model capabilities. While several attempts to provide such evaluations have been made, a clear definition of what constitutes a "good evaluation" has yet to be agreed upon. In this practitioners' perspective paper, we present a set of best practices for safety evaluations, drawing on prior work in model evaluation and illustrated through cybersecurity examples. We first discuss the steps of the initial thought process, which connects threat modeling to evaluation design. Then, we provide the characteristics and parameters that make an evaluation useful. Finally, we address additional considerations as we move from building specific evaluations to building a full and comprehensive evaluation suite.
- Abstract(参考訳): 近年の人工知能(AI)の能力の急激な増加に続いて、AIコミュニティは安全リスクの懸念を表明している。
AIシステムの安全使用と開発に関する意思決定を支援するため、危険なモデル機能の高品質な評価の必要性が高まっている。
このような評価を提供する試みはいくつかあるが、「良い評価」を構成するものの明確な定義はまだ合意されていない。
本論文では, モデル評価における先行研究を参考に, 安全評価のためのベストプラクティスのセットを提示し, サイバーセキュリティの事例を通して解説する。
まず、脅威モデルと評価設計を結びつける初期思考プロセスのステップについて論じる。
そして,評価に有用な特徴とパラメータを提示する。
最後に、特定の評価の構築から、完全な総合的な評価スイートの構築へ移行する際の、追加の考慮事項に対処する。
関連論文リスト
- AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.50078821423793]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - What AI evaluations for preventing catastrophic risks can and cannot do [2.07180164747172]
評価は、現在のパラダイムでは克服できない基本的な制限に直面している、と我々は主張する。
これは、評価が価値のあるツールである一方で、AIシステムが安全であることを保証する主要な方法として、評価に頼るべきではないことを意味します。
論文 参考訳(メタデータ) (2024-11-26T18:00:36Z) - Declare and Justify: Explicit assumptions in AI evaluations are necessary for effective regulation [2.07180164747172]
規制は、開発者が評価に関する主要な前提を明示的に識別し、正当化する必要がある、と我々は主張する。
我々は、包括的脅威モデリング、プロキシタスクの妥当性、適切な能力付与など、AI評価における中核的な仮定を特定する。
提案したアプローチは,AI開発における透明性の向上を目標とし,先進的なAIシステムのより効果的なガバナンスに向けた実践的な道筋を提供する。
論文 参考訳(メタデータ) (2024-11-19T19:13:56Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Developing and Evaluating a Design Method for Positive Artificial Intelligence [0.5461938536945723]
AI for Good"の開発は、複雑な人間の価値とシステムの整合性に関する課題を提起する。
本稿では,このギャップに対処するPositive AI設計手法を提示し,評価する。
この方法は、幸福な願望を具体的な実践に翻訳する人間中心のプロセスを提供する。
論文 参考訳(メタデータ) (2024-02-02T15:31:08Z) - Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。
生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。
本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:13:58Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。