論文の概要: Securing External Deeper-than-black-box GPAI Evaluations
- arxiv url: http://arxiv.org/abs/2503.07496v2
- Date: Thu, 13 Mar 2025 13:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 12:09:26.728202
- Title: Securing External Deeper-than-black-box GPAI Evaluations
- Title(参考訳): 外部より深いブラックボックスGPAI評価の確保
- Authors: Alejandro Tlaie, Jimmy Farrell,
- Abstract要約: 本稿では,汎用AI(GPAI)モデルの安全かつ効果的な外部評価を行う上での課題と可能性について検討する。
サイズ、能力、到達度、付随するリスクの指数的な増加により、説明責任、安全性、および公的な信頼を保証するには、従来のブラックボックスメソッドを超えるフレームワークが必要である。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License:
- Abstract: This paper examines the critical challenges and potential solutions for conducting secure and effective external evaluations of general-purpose AI (GPAI) models. With the exponential growth in size, capability, reach and accompanying risk of these models, ensuring accountability, safety, and public trust requires frameworks that go beyond traditional black-box methods. The discussion begins with an analysis of the need for deeper-than-black-box evaluations (Section I), emphasizing the importance of understanding model internals to uncover latent risks and ensure compliance with ethical and regulatory standards. Building on this foundation, Section II addresses the security considerations of remote evaluations, outlining the threat landscape, technical solutions, and safeguards necessary to protect both evaluators and proprietary model data. Finally, Section III synthesizes these insights into actionable recommendations and future directions, aiming to establish a robust, scalable, and transparent framework for external assessments in GPAI governance.
- Abstract(参考訳): 本稿では,汎用AI(GPAI)モデルの安全かつ効果的な外部評価を行う上での課題と可能性について検討する。
サイズ、能力、到達度、それに付随するリスクが指数関数的に増大する中で、説明責任、安全性、および公的信頼を保証するには、従来のブラックボックスメソッドを超えるフレームワークが必要である。
議論は、より深いブラックボックス評価(第1部)の必要性の分析から始まり、潜在リスクを明らかにするためのモデル内部の理解の重要性を強調し、倫理および規制基準の遵守を保証する。
この基礎の上に構築された第2節は、リモート評価のセキュリティ上の考慮事項に対処し、脅威の展望、技術的解決策、そして、評価者とプロプライエタリなモデルデータの両方を保護するのに必要な安全対策を概説している。
最後に、第III節はこれらの洞察を行動可能なレコメンデーションと今後の方向性にまとめ、GPAIガバナンスにおける外部アセスメントのための堅牢でスケーラブルで透明なフレームワークを確立することを目的としている。
関連論文リスト
- On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [314.7991906491166]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。
彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。
本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-20T06:20:36Z) - Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey [92.36487127683053]
Retrieval-Augmented Generation (RAG)は、AIGC(AIGC)の課題に対処するために設計された高度な技術である。
RAGは信頼性と最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを保証する。
RAGの成功と可能性にもかかわらず、最近の研究により、RAGパラダイムはプライバシーの懸念、敵対的攻撃、説明責任の問題など、新たなリスクももたらしていることが示されている。
論文 参考訳(メタデータ) (2025-02-08T06:50:47Z) - Adapting cybersecurity frameworks to manage frontier AI risks: A defense-in-depth approach [0.0]
AI関連のリスク管理におけるギャップの特定を支援する3つのアプローチを概説する。
まず、機能的なアプローチは、リスク管理アプローチがカバーすべきアクティビティの不可欠なカテゴリを特定します。
第二に、ライフサイクルのアプローチは、モデル開発ライフサイクル全体にわたって安全とセキュリティのアクティビティを割り当てます。
第3に、脅威に基づくアプローチは、悪意のあるアクターが使用する戦術、テクニック、手順を特定する。
論文 参考訳(メタデータ) (2024-08-15T05:06:03Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Holistic Safety and Responsibility Evaluations of Advanced AI Models [18.34510620901674]
高度なAIモデルの安全性と責任評価は、研究と実践の重要な分野である。
Google DeepMindの高度なAIモデルの開発において、安全評価に幅広いアプローチを革新し、適用しました。
論文 参考訳(メタデータ) (2024-04-22T10:26:49Z) - Application of the NIST AI Risk Management Framework to Surveillance Technology [1.5442389863546546]
本研究は、NIST AI RMF(National Institute of Standards and Technology's AI Risk Management Framework)の応用と意義を詳細に分析する。
本研究は, 顔認識システムのリスクが高く, 連続性が高いことから, 本分野におけるリスク管理への構造的アプローチの必要性を強調している。
論文 参考訳(メタデータ) (2024-03-22T23:07:11Z) - Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。
生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。
本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:13:58Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。