論文の概要: D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition
- arxiv url: http://arxiv.org/abs/2504.06432v1
- Date: Tue, 08 Apr 2025 21:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:33.008763
- Title: D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition
- Title(参考訳): D-Featオクルージョン:物体認識における部分的視覚オクルージョンに対するロバストネスの拡散特徴
- Authors: Rupayan Mallick, Sibo Dong, Nataniel Ruiz, Sarah Adel Bargal,
- Abstract要約: 本稿では,凍結拡散モデルを用いたパイプラインを提案する。
このような特徴は、物体を隠蔽する物体の視覚的特徴を幻覚させるのに役立つと仮定する。
提案手法を用いることで,部分的対象閉塞に対してより堅牢なモデルが得られることを示す。
- 参考スコア(独自算出の注目度): 13.854486943187565
- License:
- Abstract: Applications of diffusion models for visual tasks have been quite noteworthy. This paper targets making classification models more robust to occlusions for the task of object recognition by proposing a pipeline that utilizes a frozen diffusion model. Diffusion features have demonstrated success in image generation and image completion while understanding image context. Occlusion can be posed as an image completion problem by deeming the pixels of the occluder to be `missing.' We hypothesize that such features can help hallucinate object visual features behind occluding objects, and hence we propose using them to enable models to become more occlusion robust. We design experiments to include input-based augmentations as well as feature-based augmentations. Input-based augmentations involve finetuning on images where the occluder pixels are inpainted, and feature-based augmentations involve augmenting classification features with intermediate diffusion features. We demonstrate that our proposed use of diffusion-based features results in models that are more robust to partial object occlusions for both Transformers and ConvNets on ImageNet with simulated occlusions. We also propose a dataset that encompasses real-world occlusions and demonstrate that our method is more robust to partial object occlusions.
- Abstract(参考訳): 視覚タスクへの拡散モデルの適用は非常に注目に値する。
本稿では, 凍結拡散モデルを用いたパイプラインの提案により, 物体認識の課題に対するオクルージョンに対して, より堅牢な分類モデルを構築することを目的とする。
拡散特性は、画像コンテキストを理解しながら、画像生成と画像補完に成功している。
オクルージョンは、オクルーダーの画素を「欠落」とみなすことで、画像補完問題として提起することができる。
「そのような特徴は、物体を包含する背景にある視覚的特徴を幻覚させるのに役立つと仮定するので、モデルがより密閉性を高めるためにそれらを使用することを提案します。
入力ベースの拡張と機能ベースの拡張を含む実験を設計する。
入力ベースの拡大には、オクルーダーピクセルが塗られた画像の微調整が含まれ、特徴ベースの増色には中間拡散特徴を伴う分類機能が含まれる。
提案手法を用いることで,画像ネット上のトランスフォーマーとConvNetの両方の部分オブジェクトのオクルージョンに対して,シミュレートされたオクルージョンを持つモデルがより堅牢であることを示す。
また,実世界のオクルージョンを包含するデータセットを提案し,本手法が部分オブジェクトオクルージョンに対してより堅牢であることを示す。
関連論文リスト
- Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks? [4.9260675787714]
畳み込みニューラルネットワーク(CNN)を含む画像分類モデルは、様々な分類タスクでうまく機能するが、部分閉塞下では困難である。
我々は最近開発されたOccluded Video Instance(IRUO)データセット(arXiv:2102.01558)を基にした画像認識(IRUO)データセットをコントリビュートする。
現代のCNNベースモデルでは、従来のCNNベースモデルと比較して、隠蔽画像の認識精度が向上しており、ViTベースモデルは隠蔽画像のCNNベースモデルよりも精度が高いことが判明した。
論文 参考訳(メタデータ) (2024-09-16T23:21:22Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Diffusion Model for Camouflaged Object Detection [2.592600158870236]
本稿では,拡散型物体検出のための拡散型フレームワーク diffCOD を提案する。
提案手法は,既存の11種類の最先端手法と比較して良好な性能を示す。
論文 参考訳(メタデータ) (2023-08-01T05:50:33Z) - Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence [88.00004819064672]
Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - Feature Completion Transformer for Occluded Person Re-identification [25.159974510754992]
咬合者の再同定(Re-ID)は,咬合者の破壊による課題である。
特徴空間に隠された部分の意味情報を暗黙的に補完する特徴補完変換器(FCFormer)を提案する。
FCFormerは優れたパフォーマンスを実現し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法を上回ります。
論文 参考訳(メタデータ) (2023-03-03T01:12:57Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - Blur-Attention: A boosting mechanism for non-uniform blurred image
restoration [27.075713246257596]
非一様ぼかし画像の特徴を動的に捉えるためのぼかしアテンションモジュールを提案する。
条件生成の逆方向のフレームワークにぼやけたアテンションネットワークを導入することにより、エンド・ツー・エンドのブラインド・モーション・デブロアリング法を提案する。
実験結果から,PSNR,SSIM,主観的視覚的品質の両面において,本手法の劣化能力は優れた客観的性能を示した。
論文 参考訳(メタデータ) (2020-08-19T16:07:06Z) - Saliency-driven Class Impressions for Feature Visualization of Deep
Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。
既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。
本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-31T06:11:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。