論文の概要: Confronting the Reproducibility Crisis: A Case Study in Validating Certified Robustness
- arxiv url: http://arxiv.org/abs/2405.18753v1
- Date: Wed, 29 May 2024 04:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-30 18:48:25.186729
- Title: Confronting the Reproducibility Crisis: A Case Study in Validating Certified Robustness
- Title(参考訳): 再現性危機の解決--認証ロバスト性検証の事例から
- Authors: Richard H. Moulton, Gary A. McCully, John D. Hastings,
- Abstract要約: 本稿では,VeriGauge ツールキットを用いた "SoK: Certified Robustness for Deep Neural Networks" における検証結果の検証を試みる。
ドキュメント化された方法論に従えば、古い依存関係や利用できない依存関係、バージョンコンフリクト、ドライバの不互換性など、多くのソフトウェアとハードウェアの互換性の問題が発生した。
本稿では,コンテナ化やソフトウェア保存,包括的なドキュメントプラクティスといった潜在的なソリューションを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reproducibility is a cornerstone of scientific research, enabling validation, extension, and progress. However, the rapidly evolving nature of software and dependencies poses significant challenges to reproducing research results, particularly in fields like adversarial robustness for deep neural networks, where complex codebases and specialized toolkits are utilized. This paper presents a case study of attempting to validate the results on certified adversarial robustness in "SoK: Certified Robustness for Deep Neural Networks" using the VeriGauge toolkit. Despite following the documented methodology, numerous software and hardware compatibility issues were encountered, including outdated or unavailable dependencies, version conflicts, and driver incompatibilities. While a subset of the original results could be run, key findings related to the empirical robust accuracy of various verification methods proved elusive due to these technical obstacles, as well as slight discrepancies in the test results. This practical experience sheds light on the reproducibility crisis afflicting adversarial robustness research, where a lack of reproducibility threatens scientific integrity and hinders progress. The paper discusses the broader implications of this crisis, proposing potential solutions such as containerization, software preservation, and comprehensive documentation practices. Furthermore, it highlights the need for collaboration and standardization efforts within the research community to develop robust frameworks for reproducible research. By addressing the reproducibility crisis head-on, this work aims to contribute to the ongoing discourse on scientific reproducibility and advocate for best practices that ensure the reliability and validity of research findings within not only adversarial robustness, but security and technology research as a whole.
- Abstract(参考訳): 再現性は科学的研究の基盤であり、検証、拡張、進歩を可能にする。
しかし、ソフトウェアと依存関係の急速に進化する性質は、特に複雑なコードベースと特殊なツールキットが使用されるディープニューラルネットワークの対角的堅牢性のような分野において、研究結果を再現する上で大きな課題を生んでいる。
本稿では,VeriGauge ツールキットを用いた "SoK: Certified Robustness for Deep Neural Networks" における検証結果の検証を試みる。
ドキュメント化された方法論に従えば、古い依存関係や利用できない依存関係、バージョンコンフリクト、ドライバの不互換性など、多くのソフトウェアとハードウェアの互換性の問題が発生した。
元の結果のサブセットを走らせることができたが、これらの技術的障害と試験結果のわずかな相違により、様々な検証手法の実証的堅牢な精度に関する重要な発見が発覚した。
この実践的な経験は、再現可能性の欠如が科学的完全性を脅かし、進歩を妨げる敵の堅牢性研究に支障をきたす再現性危機に光を当てている。
本稿では,コンテナ化やソフトウェア保存,包括的なドキュメントプラクティスといった潜在的なソリューションを提案する。
さらに、再現可能な研究のための堅牢なフレームワークを開発するために、研究コミュニティ内でのコラボレーションと標準化の取り組みの必要性を強調している。
本研究は, 再現性危機に先立ち, 科学的再現性に関する現在進行中の談話に貢献することを目的としており, 研究成果の信頼性と妥当性を, 敵の堅牢性だけでなく, セキュリティ・技術研究全般において保証するベストプラクティスを提唱する。
関連論文リスト
- Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report [50.268821168513654]
我々は,Llama 3.1アーキテクチャ上に構築された,サイバーセキュリティにフォーカスした大規模言語モデル(LLM)であるFoundation-Sec-8Bを紹介する。
我々は、Llama 3.1-70B と GPT-4o-mini がサイバーセキュリティ固有のタスクで一致していることを示し、確立された新しいサイバーセキュリティベンチマークと新しいサイバーセキュリティベンチマークの両方で評価した。
当社のモデルを一般公開することで、公開とプライベート両方のサイバーセキュリティ状況において、AI駆動ツールの進歩と採用を加速することを目指しています。
論文 参考訳(メタデータ) (2025-04-28T08:41:12Z) - Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文 参考訳(メタデータ) (2025-03-30T13:26:00Z) - Transforming Cyber Defense: Harnessing Agentic and Frontier AI for Proactive, Ethical Threat Intelligence [0.0]
この原稿は、エージェントAIとフロンティアAIの収束がサイバーセキュリティをいかに変えているかを説明する。
本稿では,リアルタイムモニタリング,自動インシデント応答,永続的学習といった,レジリエントでダイナミックな防衛エコシステム構築における役割について検討する。
我々のビジョンは、テクノロジーのイノベーションを、倫理的監視を揺るがさずに調和させることであり、未来のAIによるセキュリティソリューションが、新たなサイバー脅威を効果的に対処しつつ、公正性、透明性、説明責任の核心的価値を維持することを保証することである。
論文 参考訳(メタデータ) (2025-02-28T20:23:35Z) - AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement [73.0700818105842]
我々は、AI安全のための代表的攻撃、防衛、評価方法論を統合する統合されたフレームワークとツールキットであるAISafetyLabを紹介する。
AISafetyLabには直感的なインターフェースがあり、開発者はシームレスにさまざまなテクニックを適用できる。
我々はヴィクナに関する実証的研究を行い、異なる攻撃戦略と防衛戦略を分析し、それらの比較効果に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-24T02:11:52Z) - Towards Robust Stability Prediction in Smart Grids: GAN-based Approach under Data Constraints and Adversarial Challenges [53.2306792009435]
本稿では,安定したデータのみを用いて,スマートグリッドの不安定性を検出する新しいフレームワークを提案する。
ジェネレータはGAN(Generative Adversarial Network)に依存しており、ジェネレータは不安定なデータを生成するために訓練される。
我々の解は、実世界の安定と不安定なサンプルからなるデータセットでテストされ、格子安定性の予測において最大97.5%、敵攻撃の検出において最大98.9%の精度を達成する。
論文 参考訳(メタデータ) (2025-01-27T20:48:25Z) - Open Problems in Machine Unlearning for AI Safety [61.43515658834902]
特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。
本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
論文 参考訳(メタデータ) (2025-01-09T03:59:10Z) - Digital Twin for Evaluating Detective Countermeasures in Smart Grid Cybersecurity [0.0]
この研究は、スマートグリッドのサイバー物理実験環境を複製し、デジタル双生児の可能性を掘り下げる。
ハードウェア・イン・ザ・ループ評価のためのフレキシブルで包括的なディジタルツインモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T08:41:08Z) - Securing Legacy Communication Networks via Authenticated Cyclic Redundancy Integrity Check [98.34702864029796]
認証サイクル冗長性チェック(ACRIC)を提案する。
ACRICは、追加のハードウェアを必要とせずに後方互換性を保持し、プロトコルに依存しない。
ACRICは最小送信オーバーヘッド(1ms)で堅牢なセキュリティを提供する。
論文 参考訳(メタデータ) (2024-11-21T18:26:05Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - EAIRiskBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [47.69642609574771]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
EAIRiskBenchは、EAIシナリオにおける自動物理的リスクアセスメントのための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Critical Infrastructure Security: Penetration Testing and Exploit Development Perspectives [0.0]
本稿では,重要なインフラのセキュリティに関する文献をレビューし,浸透試験と活用開発に焦点をあてる。
この論文の発見は、重要なインフラや、サイバー敵による高度な脅威に固有の脆弱性を明らかにしている。
このレビューは、継続的かつ積極的なセキュリティアセスメントの必要性を強調している。
論文 参考訳(メタデータ) (2024-07-24T13:17:07Z) - Generative AI in Cybersecurity [0.0]
生成人工知能(GAI)は、データ分析、パターン認識、意思決定プロセスの分野を変える上で重要な役割を担っている。
GAIは急速に進歩し、サイバーセキュリティプロトコルや規制フレームワークの現在のペースを超越している。
この研究は、マルウェア生成におけるGAIの高度な利用に対抗するために、より複雑な防衛戦略を積極的に特定し、開発する組織にとって重要な必要性を強調している。
論文 参考訳(メタデータ) (2024-05-02T19:03:11Z) - Generative AI for Secure Physical Layer Communications: A Survey [80.0638227807621]
Generative Artificial Intelligence(GAI)は、AIイノベーションの最前線に立ち、多様なコンテンツを生成するための急速な進歩と非並行的な能力を示す。
本稿では,通信ネットワークの物理層におけるセキュリティ向上におけるGAIの様々な応用について,広範な調査を行う。
私たちは、物理的レイヤセキュリティの課題に対処する上で、GAIの役割を掘り下げ、通信の機密性、認証、可用性、レジリエンス、整合性に重点を置いています。
論文 参考訳(メタデータ) (2024-02-21T06:22:41Z) - Trust-based Approaches Towards Enhancing IoT Security: A Systematic Literature Review [3.0969632359049473]
本研究は,IoTに対するTrustベースのサイバーセキュリティセキュリティアプローチについて,系統的な文献レビューを行う。
我々は、これらの脅威に対処するために存在する共通の信頼に基づく緩和テクニックを強調した。
いくつかのオープンな問題が強調され、将来の研究の方向性が提示された。
論文 参考訳(メタデータ) (2023-11-20T12:21:35Z) - Software Repositories and Machine Learning Research in Cyber Security [0.0]
堅牢なサイバーセキュリティ防衛の統合は、ソフトウェア開発のあらゆる段階において不可欠になっている。
ソフトウェア要件プロセスにおけるこれらの初期段階の脆弱性の検出にトピックモデリングと機械学習を活用する試みが実施されている。
論文 参考訳(メタデータ) (2023-11-01T17:46:07Z) - Cyber Security Requirements for Platforms Enhancing AI Reproducibility [0.0]
本研究は、人工知能(AI)の分野に焦点を当て、AIプラットフォームを評価するための新しいフレームワークを紹介する。
Floydhub、BEAT、Codalab、Kaggle、OpenMLの5つの人気AIプラットフォームが評価された。
この分析によると、これらのプラットフォームはいずれも、必要なサイバーセキュリティ対策を完全に組み込んでいない。
論文 参考訳(メタデータ) (2023-09-27T09:43:46Z) - Proceedings of the Artificial Intelligence for Cyber Security (AICS)
Workshop at AAAI 2022 [55.573187938617636]
ワークショップは、サイバーセキュリティの問題へのAIの適用に焦点を当てる。
サイバーシステムは大量のデータを生成し、これを効果的に活用することは人間の能力を超えます。
論文 参考訳(メタデータ) (2022-02-28T18:27:41Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。