論文の概要: An Investigation of Visual Foundation Models Robustness
- arxiv url: http://arxiv.org/abs/2508.16225v1
- Date: Fri, 22 Aug 2025 08:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.327283
- Title: An Investigation of Visual Foundation Models Robustness
- Title(参考訳): 視覚基礎モデルにおけるロバスト性の検討
- Authors: Sandeep Gupta, Roberto Passerone,
- Abstract要約: Visual Foundation Models (VFM) はコンピュータビジョンにおいて、オブジェクト検出、画像分類、セグメンテーション、ポーズ推定、モーショントラッキングといった様々なタスクのためのパワーシステムとして普及しつつある。
本稿では,照明,気象条件,センサ特性などの要因に左右される動的環境に適応するために,コンピュータビジョンシステムにおいて欠かせないネットワークロバスト性要件について検討する。
本研究では,分散シフトや雑音,空間的に歪んだ入力,敵攻撃といった現実的な課題に対して,視覚ネットワークの堅牢性を高めるために使用される経験的防御と頑健なトレーニングについて検討する。
- 参考スコア(独自算出の注目度): 0.18352113484137625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Foundation Models (VFMs) are becoming ubiquitous in computer vision, powering systems for diverse tasks such as object detection, image classification, segmentation, pose estimation, and motion tracking. VFMs are capitalizing on seminal innovations in deep learning models, such as LeNet-5, AlexNet, ResNet, VGGNet, InceptionNet, DenseNet, YOLO, and ViT, to deliver superior performance across a range of critical computer vision applications. These include security-sensitive domains like biometric verification, autonomous vehicle perception, and medical image analysis, where robustness is essential to fostering trust between technology and the end-users. This article investigates network robustness requirements crucial in computer vision systems to adapt effectively to dynamic environments influenced by factors such as lighting, weather conditions, and sensor characteristics. We examine the prevalent empirical defenses and robust training employed to enhance vision network robustness against real-world challenges such as distributional shifts, noisy and spatially distorted inputs, and adversarial attacks. Subsequently, we provide a comprehensive analysis of the challenges associated with these defense mechanisms, including network properties and components to guide ablation studies and benchmarking metrics to evaluate network robustness.
- Abstract(参考訳): Visual Foundation Models (VFM) はコンピュータビジョンにおいて、オブジェクト検出、画像分類、セグメンテーション、ポーズ推定、モーショントラッキングといった様々なタスクのためのパワーシステムとして普及しつつある。
VFMは、LeNet-5、AlexNet、ResNet、VGGNet、InceptionNet、DenseNet、YOLO、ViTといったディープラーニングモデルにおけるセミナルな革新に乗じて、さまざまな重要なコンピュータビジョンアプリケーションに優れたパフォーマンスを提供している。
これには生体認証、自動運転車の認識、医療画像分析など、セキュリティに敏感なドメインが含まれており、テクノロジとエンドユーザの信頼を育む上で、堅牢性が不可欠である。
本稿では, 照明, 気象条件, センサ特性などの影響を受け, 動的環境に効果的に対応するために, コンピュータビジョンシステムに不可欠なネットワークロバスト性要件について検討する。
本研究では,分散シフトや雑音,空間的に歪んだ入力,敵攻撃といった現実的な課題に対して,視覚ネットワークの堅牢性を高めるために使用される経験的防御と頑健なトレーニングについて検討する。
その後、ネットワーク特性やコンポーネントなど、これらの防御機構に関連する課題を網羅的に分析し、アブレーション研究とベンチマーク指標を導出し、ネットワークの堅牢性を評価する。
関連論文リスト
- A Survey of Model Extraction Attacks and Defenses in Distributed Computing Environments [55.60375624503877]
モデル抽出攻撃(MEA)は、敵がモデルを盗み、知的財産と訓練データを公開することによって、現代の機械学習システムを脅かす。
この調査は、クラウド、エッジ、フェデレーションのユニークな特性がどのように攻撃ベクトルや防御要件を形作るのかを、緊急に理解する必要に起因している。
本研究は, 自動運転車, 医療, 金融サービスといった重要な分野において, 環境要因がセキュリティ戦略にどう影響するかを実証し, 攻撃手法と防衛機構の進化を系統的に検討する。
論文 参考訳(メタデータ) (2025-02-22T03:46:50Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - A Comprehensive Study of Real-Time Object Detection Networks Across
Multiple Domains: A Survey [9.861721674777877]
ディープニューラルネットワークに基づくオブジェクト検出器は継続的に進化しており、様々な用途で使用されている。
安全クリティカルなアプリケーションは高い精度と信頼性を必要とするが、低遅延タスクにはリソースとエネルギー効率のネットワークが必要である。
既存のネットワークの基準ベンチマークは存在せず、新しいネットワークを設計するための標準評価ガイドラインも存在しない。
論文 参考訳(メタデータ) (2022-08-23T12:01:16Z) - Robustness in Deep Learning for Computer Vision: Mind the gap? [13.576376492050185]
我々は、コンピュータビジョンのためのディープラーニングにおいて、現在の定義と非敵対的堅牢性に向けての進歩を特定し、分析し、要約する。
この研究の分野は、敵対的機械学習に対して、不当にあまり注目されていないことがわかりました。
論文 参考訳(メタデータ) (2021-12-01T16:42:38Z) - SI-Score: An image dataset for fine-grained analysis of robustness to
object location, rotation and size [95.00667357120442]
オブジェクトの位置、回転、サイズを変えることは、非自明な方法で予測に影響を与える可能性がある。
合成データセットであるSI-Scoreを用いて,これらの変動要因に対するロバストネスのきめ細かい解析を行う。
論文 参考訳(メタデータ) (2021-04-09T05:00:49Z) - Unadversarial Examples: Designing Objects for Robust Vision [100.4627585672469]
現代の機械学習アルゴリズムの感度を入力摂動に活かし、「ロバストオブジェクト」を設計するフレームワークを開発しています。
標準ベンチマークから(シミュレーション中)ロボット工学まで,さまざまな視覚ベースのタスクに対するフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-22T18:26:07Z) - DEEVA: A Deep Learning and IoT Based Computer Vision System to Address
Safety and Security of Production Sites in Energy Industry [0.0]
本稿では,シーン分類,シーン中のオブジェクト検出,セマンティックセグメンテーション,シーンキャプションなど,さまざまなコンピュータビジョンに関わる問題に取り組む。
我々は、シーン分類、オブジェクト検出、セマンティックセグメンテーション、シーンのキャプションを扱うためのDeep ExxonMobil Eye for Video Analysis (DEEVA)パッケージを開発した。
その結果, RetinaNet物体検出器を用いた伝達学習により, 作業者の存在, 車両・建設機器の種類, 安全関連物体を高い精度(90%以上)で検出できることがわかった。
論文 参考訳(メタデータ) (2020-03-02T21:26:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。