論文の概要: OASIC: Occlusion-Agnostic and Severity-Informed Classification
- arxiv url: http://arxiv.org/abs/2604.04012v1
- Date: Sun, 05 Apr 2026 08:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.872727
- Title: OASIC: Occlusion-Agnostic and Severity-Informed Classification
- Title(参考訳): OASIC: Occlusion-Agnostic and Severity-Informed Classification
- Authors: Kay Gijzen, Gertjan J. Burghouts, Daniël M. Pelt,
- Abstract要約: 2つの根本原因は,(1)可視情報の喪失,(2)隠蔽者による注意パターンである。
我々は OASIC: Occlusion Agnostic Severity Informed Classification と呼ばれる重度インフォームド分類モデルを用いている。
実験の結果、グレーのマスクと適応モデルの選択を組み合わせることで、隠蔽画像の標準トレーニングで$textAUC_textocc$ +18.5、隠蔽画像の微調整で+23.7が改善された。
- 参考スコア(独自算出の注目度): 4.326765644350503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Severe occlusions of objects pose a major challenge for computer vision. We show that two root causes are (1) the loss of visible information and (2) the distracting patterns caused by the occluders. Our approach addresses both causes at the same time. First, the distracting patterns are removed at test-time, via masking of the occluding patterns. This masking is independent of the type of occlusion, by handling the occlusion through the lens of visual anomalies w.r.t. the object of interest. Second, to deal with less visual details, we follow standard practice by masking random parts of the object during training, for various degrees of occlusions. We discover that (a) it is possible to estimate the degree of the occlusion (i.e. severity) at test-time, and (b) that a model optimized for a specific degree of occlusion also performs best on a similar degree during test-time. Combining these two insights brings us to a severity-informed classification model called OASIC: Occlusion Agnostic Severity Informed Classification. We estimate the severity of occlusion for a test image, mask the occluder, and select the model that is optimized for the degree of occlusion. This strategy performs better than any single model optimized for any smaller or broader range of occlusion severities. Experiments show that combining gray masking with adaptive model selection improves $\text{AUC}_\text{occ}$ by +18.5 over standard training on occluded images and +23.7 over finetuning on unoccluded images.
- Abstract(参考訳): オブジェクトの過剰な隠蔽は、コンピュータビジョンにとって大きな課題となる。
2つの根本原因は,(1)可視情報の喪失,(2)隠蔽者による注意パターンである。
私たちのアプローチは、両方の原因を同時に解決します。
第一に、注意パターンは、排他パターンのマスキングを通じて、テスト時に除去される。
このマスキングは、興味の対象である視覚異常のレンズを通して閉塞を処理することにより、閉塞の種類とは独立である。
第二に、視覚的詳細の少ないものに対処するために、訓練中に物体のランダムな部分を隠蔽して、様々な種類の閉塞を隠蔽する標準的な慣行に従う。
私たちはそれを発見します
(a)テスト時の閉塞度(重度)を推定することができ、
b) 特定の閉塞度に最適化されたモデルも、テスト時間中に同様の程度に最適化される。
これら2つの洞察を組み合わせることで、OASIC: Occlusion Agnostic Severity Informed Classificationと呼ばれる重度インフォームド分類モデルが実現します。
テスト画像のオクルージョンの重症度を推定し、オクルーダーをマスクし、オクルージョンの度合いに最適化されたモデルを選択する。
この戦略は、より小さな、あるいはより広いオクルージョンの深刻度に最適化されたどのモデルよりも優れている。
実験の結果、グレーマスクと適応モデル選択を組み合わせることで、隠蔽画像の標準トレーニングに$\text{AUC}_\text{occ}$+18.5、隠蔽画像の微調整に+23.7が改良されることが示された。
関連論文リスト
- ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors [58.45131932883374]
ビデオ中のディープフェイクを検出するための完全自己教師型アプローチを提案する。
本モデルでは,拡散再構成誤差を用いて,疑わしい映像とパーソナライズされた被写体との同一性距離を算出する。
本手法は, ボケや圧縮などの汚損に対して極めて堅牢であり, 現実の顔偽造検出への適用性を強調している。
論文 参考訳(メタデータ) (2026-01-05T18:59:54Z) - OCSVM-Guided Representation Learning for Unsupervised Anomaly Detection [1.0190194769786831]
Unsupervised Anomaly Detection (UAD) は、ラベル付きデータなしで異常を検出することを目的としている。
解析的に解ける一級SVMを用いて表現学習を緊密に結合する新しい手法を提案する。
このモデルは、MNIST-Cに基づく新しいベンチマークと、挑戦的な脳MRI微妙な病変検出タスクの2つのタスクで評価されている。
論文 参考訳(メタデータ) (2025-07-25T13:00:40Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting [59.830657530592255]
Amodally for Patterns Through Unseen Regions (CAPTURe)は、視覚言語モデルを評価するためのテストベッドである。
CAPTUReでは、4つの強力な視覚言語モデルを評価し、隠蔽パターンと隠蔽パターンの両方でモデルがカウントできないことを発見した。
論文 参考訳(メタデータ) (2025-04-21T23:38:43Z) - Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks? [4.9260675787714]
畳み込みニューラルネットワーク(CNN)を含む画像分類モデルは、様々な分類タスクでうまく機能するが、部分閉塞下では困難である。
我々は最近開発されたOccluded Video Instance(IRUO)データセット(arXiv:2102.01558)を基にした画像認識(IRUO)データセットをコントリビュートする。
現代のCNNベースモデルでは、従来のCNNベースモデルと比較して、隠蔽画像の認識精度が向上しており、ViTベースモデルは隠蔽画像のCNNベースモデルよりも精度が高いことが判明した。
論文 参考訳(メタデータ) (2024-09-16T23:21:22Z) - Multilevel Saliency-Guided Self-Supervised Learning for Image Anomaly
Detection [15.212031255539022]
異常検出(AD)はコンピュータビジョンの基本課題である。
そこで我々は,サリエンシガイダンスを活用して意味的手がかりを付加するCutSwapを提案する。
CutSwapは、2つの主流ADベンチマークデータセット上で最先端のADパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T08:03:53Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Dual Attention Model with Reinforcement Learning for Classification of Histology Whole-Slide Images [8.404881822414898]
デジタル全スライド画像(WSI)は一般に顕微鏡分解能で撮影され、広い空間データを包含する。
本稿では,病理医の視覚検査に触発された2つの主成分からなる新しい二重注意アプローチを提案する。
提案手法は,WSIの10%未満を高い倍率で処理しながら,最先端の手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2023-02-19T22:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。