論文の概要: FOAM: A General Frequency-Optimized Anti-Overlapping Framework for Overlapping Object Perception
- arxiv url: http://arxiv.org/abs/2506.13501v1
- Date: Mon, 16 Jun 2025 13:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.601127
- Title: FOAM: A General Frequency-Optimized Anti-Overlapping Framework for Overlapping Object Perception
- Title(参考訳): FOAM: オブジェクト知覚の重なり合う一般的な周波数最適化アンチオーバーラップフレームワーク
- Authors: Mingyuan Li, Tong Jia, Han Gu, Hui Lu, Hao Wang, Bowen Ma, Shuyang Lin, Shiyi Guo, Shizhuo Deng, Dongyue Chen,
- Abstract要約: 重なり合う物体知覚は、ランダムに重なり合う前景の特徴を分離し、背景の特徴を抑えつつ前景の特徴を抽出することを目的としている。
本稿では、よりテクスチャや輪郭情報を抽出する際のモデルを支援するために、一般周波数ベースのアンチオーバーラップフレームワーク(FOAM)を提案する。
具体的には、周波数空間変換器ブロック(FSTB)を設計し、周波数領域と空間領域の両方から特徴を同時に抽出し、ネットワークがフォアグラウンドからより多くのテクスチャ特徴をキャプチャするのに役立つ。
- 参考スコア(独自算出の注目度): 7.258172311752019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overlapping object perception aims to decouple the randomly overlapping foreground-background features, extracting foreground features while suppressing background features, which holds significant application value in fields such as security screening and medical auxiliary diagnosis. Despite some research efforts to tackle the challenge of overlapping object perception, most solutions are confined to the spatial domain. Through frequency domain analysis, we observe that the degradation of contours and textures due to the overlapping phenomenon can be intuitively reflected in the magnitude spectrum. Based on this observation, we propose a general Frequency-Optimized Anti-Overlapping Framework (FOAM) to assist the model in extracting more texture and contour information, thereby enhancing the ability for anti-overlapping object perception. Specifically, we design the Frequency Spatial Transformer Block (FSTB), which can simultaneously extract features from both the frequency and spatial domains, helping the network capture more texture features from the foreground. In addition, we introduce the Hierarchical De-Corrupting (HDC) mechanism, which aligns adjacent features in the separately constructed base branch and corruption branch using a specially designed consistent loss during the training phase. This mechanism suppresses the response to irrelevant background features of FSTBs, thereby improving the perception of foreground contour. We conduct extensive experiments to validate the effectiveness and generalization of the proposed FOAM, which further improves the accuracy of state-of-the-art models on four datasets, specifically for the three overlapping object perception tasks: Prohibited Item Detection, Prohibited Item Segmentation, and Pneumonia Detection. The code will be open source once the paper is accepted.
- Abstract(参考訳): 重なり合う物体知覚は、ランダムに重なり合う前景の特徴を分離し、背景の特徴を抑えつつ前景の特徴を抽出することを目的としている。
物体知覚の重なり合う課題に取り組む研究努力にもかかわらず、ほとんどの解は空間領域に限られている。
周波数領域解析により、重なり合う現象による輪郭やテクスチャの劣化は、マグニチュードスペクトルに直感的に反映できることがわかった。
そこで本研究では,よりテクスチャや輪郭情報を抽出する際のモデルを支援するために,一般周波数最適化アンチオーバーラップフレームワーク(FOAM)を提案する。
具体的には、周波数空間変換器ブロック(FSTB)を設計し、周波数領域と空間領域の両方から特徴を同時に抽出し、ネットワークがフォアグラウンドからより多くのテクスチャ特徴をキャプチャするのに役立つ。
さらに, 個別に構築したベースブランチと汚職ブランチに隣接した特徴を, 訓練期間中に特別に設計した一貫した損失を用いて整列する階層的デコープチャリング(HDC)機構を導入する。
この機構は、FSTBの無関係な背景特性に対する応答を抑制し、前景の輪郭の知覚を向上させる。
提案するFOAMの有効性と一般化を検証し、特に3つの重なり合うオブジェクト認識タスク(禁物検出、禁物分割、肺炎検出)について、4つのデータセットにおける最先端モデルの精度をさらに向上させる。
論文が受け入れられたら、コードはオープンソースになる。
関連論文リスト
- Revisiting Deep Feature Reconstruction for Logical and Structural Industrial Anomaly Detection [2.3020018305241337]
産業異常検出は品質管理と予測維持に不可欠である。
既存の手法では、深層学習ネットワークから抽出された画像パッチから複数スケールの特徴を活用することで、デントやスクラッチなどの構造異常を一般的に検出する。
構造異常を検出するためのメモリと計算効率のよいアプローチであるDeep Feature Restruction (DFR) に注目し,これらの制約に対処する。
我々はさらに、DFRをUDSADと呼ばれる統一されたフレームワークに拡張し、構造的および論理的異常の両方を検出する。
論文 参考訳(メタデータ) (2024-10-21T17:56:47Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Edge Based Oriented Object Detection [8.075609633483248]
対象物の検出精度を高めるために,エッジ勾配に基づく一意な損失関数を提案する。
DOTAデータセットのmAP増加率は1.3%である。
論文 参考訳(メタデータ) (2023-09-15T09:19:38Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Boundary-semantic collaborative guidance network with dual-stream
feedback mechanism for salient object detection in optical remote sensing
imagery [22.21644705244091]
二重ストリームフィードバック機構を備えた境界意味協調誘導ネットワーク(BSCGNet)を提案する。
BSCGNetは、近年提案されている17の最先端(SOTA)アプローチよりも優れた、挑戦的なシナリオにおいて、明確なアドバンテージを示している。
論文 参考訳(メタデータ) (2023-03-06T03:36:06Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。