論文の概要: Referential Security as a New Paradigm for AI Evaluations
- arxiv url: http://arxiv.org/abs/2605.25673v1
- Date: Mon, 25 May 2026 10:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.730143
- Title: Referential Security as a New Paradigm for AI Evaluations
- Title(参考訳): AI評価のための新しいパラダイムとしての参照セキュリティ
- Authors: Dan Ristea, Vasilios Mavroudis,
- Abstract要約: 我々は,AI評価の新しいパラダイムとして参照セキュリティを提案する。
このアプローチは、モデルアイデンティティを経験的に検証可能な性質として再設計し、参照安定性を実体セキュリティが条件としているものと区別する。
- 参考スコア(独自算出の注目度): 5.748110232428846
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Security evaluations inherently depend on stable identifiers. Any finding, audit, or regulatory decision must remain attached to the specific artifact it pertains to. Continuously updated artificial intelligence systems violate this core assumption, with public model designations remaining static while underlying weights, prompts, retrieval mechanisms, misuse classifiers, inference settings, and serving infrastructures undergo unannounced modifications. Consequently, current evaluations frequently apply to superficial labels rather than identifiable and distinct systems. To resolve this, we propose referential security as a new paradigm for AI evaluation. The fundamental security question extends beyond whether a model is safe to whether subsequent parties can conclusively determine which system a specific safety claim addressed. This approach reframes model identity as an empirically verifiable property and separates referential stability from the substantive security claims it conditions. This framework brings tractability to three critical workflows that current practices handle poorly. Specifically, it enables reproducible evaluation, longitudinal audit validity, and cross-provider equivalence. By grounding these evaluations in verifiable artifacts, our approach ensures that safety audits and regulatory findings maintain their empirical utility across the operational lifecycle of dynamic systems.
- Abstract(参考訳): セキュリティ評価は本質的に安定した識別子に依存する。
発見、監査、または規制上の決定は、それに関連する特定のアーティファクトに添付されなければならない。
継続的に更新された人工知能システムは、この中核的な前提に反し、公的モデルの指定は静的のままであり、基礎となる重み、プロンプト、検索機構、誤用分類器、推論設定、未発表の修正を行うインフラストラクチャーを提供する。
結果として、現在の評価は、識別可能で区別可能なシステムではなく、表面的なラベルに適用されることが多い。
そこで我々は,AI評価の新しいパラダイムとして参照セキュリティを提案する。
基本的なセキュリティ問題は、モデルが安全かどうかを超えて、後続の当事者がどのシステムに対処するかを決定できるかどうかという問題である。
このアプローチは、モデルアイデンティティを経験的に検証可能な性質として再設計し、参照安定性を実体セキュリティが条件としているものと区別する。
このフレームワークは、現在のプラクティスがうまく扱えない3つの重要なワークフローにトラクタビリティをもたらす。
具体的には、再現可能な評価、縦断的な監査の妥当性、およびクロスプロデューサの等価性を可能にする。
これらの評価を検証可能なアーティファクトに基礎づけることで、動的システムの運用ライフサイクル全体にわたって、安全監査と規制上の知見が実証的有用性を維持することが保証される。
関連論文リスト
- Can We Trust AI-Inferred User States. A Psychometric Framework for Validating the Reliability of Users States Classification by LLMs in Operational Environments [0.0]
本稿では,ユーザ状態評価に使用されるメトリクスが,個々のスコアレベルで安定して解釈可能であるという仮定を実証的に検証する。
分析には個々のスコアの信頼性と集約された信頼性の両方が含まれており、リアルタイム適応に有用なメトリクスを識別することができる。
この研究の主な貢献は、メートル法の適用性の測定可能な評価を可能にするレプリカブル評価フレームワークの提案である。
論文 参考訳(メタデータ) (2026-05-15T08:43:26Z) - Beyond single-channel agentic benchmarking [0.0]
本稿では,AIエージェントを分離して評価することで,人間のループ環境に配置した場合の運用上の安全性が低下すると主張している。
にもかかわらず、不完全なAIシステムでさえ、十分に文書化された人間の失敗の原因に対して冗長な監査レイヤーとして機能することで、かなりの安全性を提供することができる。
論文 参考訳(メタデータ) (2026-02-05T08:22:02Z) - SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs [37.82193156438782]
本稿では, エージェント安全評価の新しいパラダイムとして, 継続的かつ自己進化的なプロセスとしてのリフレーミング評価を提案する。
本稿では、構造化されていないポリシー文書を自律的に取り込み、包括的な安全ベンチマークを生成し、永続的に進化させる、新しいマルチエージェントフレームワークSafeEvalAgentを提案する。
本実験はSafeEvalAgentの有効性を実証し,評価が強まるにつれてモデルの安全性が一貫した低下を示す。
論文 参考訳(メタデータ) (2025-09-30T11:20:41Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - Trustworthiness for an Ultra-Wideband Localization Service [2.4979362117484714]
本稿では,超広帯域自己ローカライゼーションのための総合的信頼性評価フレームワークを提案する。
我々の目標は、客観的な証拠に基づいてシステムの信頼性を評価するためのガイダンスを提供することである。
我々のアプローチは、結果の信頼性指標が、選択された現実世界の脅威に対応することを保証します。
論文 参考訳(メタデータ) (2024-08-10T11:57:10Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。