論文の概要: Masking Strategies for Background Bias Removal in Computer Vision Models
- arxiv url: http://arxiv.org/abs/2308.12127v1
- Date: Wed, 23 Aug 2023 13:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:06:52.000466
- Title: Masking Strategies for Background Bias Removal in Computer Vision Models
- Title(参考訳): コンピュータビジョンモデルにおける背景バイアス除去のためのマスキング戦略
- Authors: Ananthu Aniraj, Cassio F. Dantas, Dino Ienco, Diego Marcos
- Abstract要約: 本研究では,背景バイアスが微細な画像分類に与える影響について検討する。
我々は、コナールニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)などの標準バックボーンモデルを評価する。
実験は、異なるマスキング戦略の下でCNNとViTモデルの挙動を評価する。
- 参考スコア(独自算出の注目度): 8.168621685852521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models for fine-grained image classification tasks, where the difference
between some classes can be extremely subtle and the number of samples per
class tends to be low, are particularly prone to picking up background-related
biases and demand robust methods to handle potential examples with
out-of-distribution (OOD) backgrounds. To gain deeper insights into this
critical problem, our research investigates the impact of background-induced
bias on fine-grained image classification, evaluating standard backbone models
such as Convolutional Neural Network (CNN) and Vision Transformers (ViT). We
explore two masking strategies to mitigate background-induced bias: Early
masking, which removes background information at the (input) image level, and
late masking, which selectively masks high-level spatial features corresponding
to the background. Extensive experiments assess the behavior of CNN and ViT
models under different masking strategies, with a focus on their generalization
to OOD backgrounds. The obtained findings demonstrate that both proposed
strategies enhance OOD performance compared to the baseline models, with early
masking consistently exhibiting the best OOD performance. Notably, a ViT
variant employing GAP-Pooled Patch token-based classification combined with
early masking achieves the highest OOD robustness.
- Abstract(参考訳): いくつかのクラス間の差異が極めて微妙で、クラス毎のサンプル数が低くなるような、きめ細かい画像分類タスクのモデルは、特に背景に関連するバイアスを拾い上げ、分散(ood)背景の潜在的な例を扱うための堅牢なメソッドを要求する傾向がある。
そこで本研究では,背景バイアスが微細な画像分類に与える影響について検討し,畳み込みニューラルネットワーク(CNN)や視覚変換器(ViT)などの標準的なバックボーンモデルを評価する。
本研究では,背景バイアスを緩和する2つのマスキング戦略について検討する。早期マスキングは画像レベルの背景情報を除去し,後期マスキングは背景に対応する高レベルの空間的特徴を選択的にマスキングする。
広範囲にわたる実験は、異なるマスキング戦略の下でのCNNとViTモデルの挙動を評価し、OOD背景への一般化に焦点を当てている。
その結果,提案手法はベースラインモデルと比較してOOD性能を向上し,初期マスキングはOOD性能に優れていた。
特に、GAP-Pooled Patchトークンベースの分類と初期マスキングを組み合わせたViTは、OODのロバスト性が最も高い。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Benchmark Generation Framework with Customizable Distortions for Image
Classifier Robustness [4.339574774938128]
本稿では,画像分類モデルのロバスト性を評価するために,逆ベンチマークを生成する新しいフレームワークを提案する。
当社のフレームワークでは,画像に最適な歪みの種類をカスタマイズすることが可能で,デプロイメントに関連する歪みに対処する上で有効である。
論文 参考訳(メタデータ) (2023-10-28T07:40:42Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - CLAD: A Contrastive Learning based Approach for Background Debiasing [43.0296255565593]
我々は,CNNにおける背景バイアスを軽減するために,対照的な学習に基づくアプローチを導入する。
前回のベンチマークを4.1%で上回り、バックグラウンドチャレンジデータセットで最先端の結果を得た。
論文 参考訳(メタデータ) (2022-10-06T08:33:23Z) - Deep Learning-Based Defect Classification and Detection in SEM Images [1.9206693386750882]
特に、異なるResNet、VGGNetアーキテクチャをバックボーンとして使用するRetinaNetモデルをトレーニングする。
そこで本研究では,異なるモデルからの出力予測を組み合わせることで,欠陥の分類と検出に優れた性能を実現するための選好に基づくアンサンブル戦略を提案する。
論文 参考訳(メタデータ) (2022-06-20T16:34:11Z) - Face Anti-Spoofing Via Disentangled Representation Learning [90.90512800361742]
顔認識システムのセキュリティには、顔の偽造が不可欠だ。
本稿では,画像から生意気な特徴やコンテンツの特徴を乱す顔のアンチ・スプーフィングの新たな視点を提案する。
論文 参考訳(メタデータ) (2020-08-19T03:54:23Z) - Depth image denoising using nuclear norm and learning graph model [107.51199787840066]
グループベース画像復元法は,パッチ間の類似性収集に有効である。
各パッチに対して、検索ウィンドウ内で最もよく似たパッチを見つけ、グループ化する。
提案手法は, 主観的, 客観的両面において, 最先端の復調法よりも優れている。
論文 参考訳(メタデータ) (2020-08-09T15:12:16Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。