論文の概要: Improving Apple Object Detection with Occlusion-Enhanced Distillation
- arxiv url: http://arxiv.org/abs/2409.01573v1
- Date: Tue, 3 Sep 2024 03:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:06:29.154832
- Title: Improving Apple Object Detection with Occlusion-Enhanced Distillation
- Title(参考訳): Occlusion-Enhanced Distillation によるApple オブジェクト検出の改善
- Authors: Liang Geng,
- Abstract要約: 自然環境で成長するリンゴは、しばしば葉や枝から激しい視覚障害に直面する。
OED(Occlusion-Enhanced Distillation)と呼ばれる手法を導入し、隠蔽データセット上の意味的に整合した特徴の学習を規則化する。
提案手法は, 広範囲な比較実験により, 最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 1.0049237739132246
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Apples growing in natural environments often face severe visual obstructions from leaves and branches. This significantly increases the risk of false detections in object detection tasks, thereby escalating the challenge. Addressing this issue, we introduce a technique called "Occlusion-Enhanced Distillation" (OED). This approach utilizes occlusion information to regularize the learning of semantically aligned features on occluded datasets and employs Exponential Moving Average (EMA) to enhance training stability. Specifically, we first design an occlusion-enhanced dataset that integrates Grounding DINO and SAM methods to extract occluding elements such as leaves and branches from each sample, creating occlusion examples that reflect the natural growth state of fruits. Additionally, we propose a multi-scale knowledge distillation strategy, where the student network uses images with increased occlusions as inputs, while the teacher network employs images without natural occlusions. Through this setup, the strategy guides the student network to learn from the teacher across scales of semantic and local features alignment, effectively narrowing the feature distance between occluded and non-occluded targets and enhancing the robustness of object detection. Lastly, to improve the stability of the student network, we introduce the EMA strategy, which aids the student network in learning more generalized feature expressions that are less affected by the noise of individual image occlusions. Our method significantly outperforms current state-of-the-art techniques through extensive comparative experiments.
- Abstract(参考訳): 自然環境で成長するリンゴは、しばしば葉や枝から激しい視覚障害に直面する。
これにより、オブジェクト検出タスクにおける偽検出のリスクが大幅に増加し、課題がエスカレートされる。
この問題に対処するため,オクルージョン強化蒸留(OED)と呼ばれる技術を導入する。
このアプローチでは、隠蔽情報を用いて、隠蔽されたデータセット上の意味的に整合した特徴の学習を規則化し、訓練安定性を高めるために指数移動平均(EMA)を用いる。
具体的には,まずDINO法とSAM法を統合したオクルージョン強化データセットを設計し,各試料から葉や枝などのオクルージョン要素を抽出し,果実の自然成長状態を反映したオクルージョン例を作成する。
また, 学生ネットワークでは, 教師ネットワークでは, 自然閉塞のない画像を用いているのに対し, 教師ネットワークでは, 学習者ネットワークでは, 入力としてオクルージョンが増大した画像を使用するマルチスケールの知識蒸留戦略を提案する。
この設定により、教師ネットワークは、意味的・局所的な特徴アライメントのスケールを越えて学習し、隠蔽対象と非隠蔽対象との間の特徴距離を効果的に狭め、オブジェクト検出の堅牢性を高める。
最後に,学生ネットワークの安定性を向上させるために,個々の画像閉塞音の影響を受けない,より一般化された特徴表現の学習を支援するEMA戦略を導入する。
提案手法は, 広範囲な比較実験により, 最先端技術よりも優れていた。
関連論文リスト
- Semantic Deep Hiding for Robust Unlearnable Examples [33.68037533119807]
深層学習モデルを誤解させ、データを不正な探索から防ぐために、未学習例が提案されている。
本稿では,高次特徴に富んだセマンティック画像を適応的に隠蔽するDeep Hiding方式を提案する。
提案手法は学習不可能な事例に対して顕著なロバスト性を示し,その有効性を示す。
論文 参考訳(メタデータ) (2024-06-25T08:05:42Z) - DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - Multilevel Saliency-Guided Self-Supervised Learning for Image Anomaly
Detection [15.212031255539022]
異常検出(AD)はコンピュータビジョンの基本課題である。
そこで我々は,サリエンシガイダンスを活用して意味的手がかりを付加するCutSwapを提案する。
CutSwapは、2つの主流ADベンチマークデータセット上で最先端のADパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T08:03:53Z) - Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where [63.61248884015162]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Contrastive View Design Strategies to Enhance Robustness to Domain
Shifts in Downstream Object Detection [37.06088084592779]
コントラスト学習とドメイン外オブジェクト検出の実証的研究を行う。
本稿では,外見シフトやコンテキストシフトのシナリオにおいて,ビューを拡大し,堅牢性を高める戦略を提案する。
我々の結果と洞察は、対照的な学習における視点の選択を通じて、堅牢性を確保する方法を示している。
論文 参考訳(メタデータ) (2022-12-09T00:34:50Z) - Learning Efficient Representations for Enhanced Object Detection on
Large-scene SAR Images [16.602738933183865]
SAR(Synthetic Aperture Radar)画像のターゲットの検出と認識は難しい問題である。
近年開発されたディープラーニングアルゴリズムは,SAR画像の固有の特徴を自動的に学習することができる。
本稿では,効率的かつ堅牢なディープラーニングに基づくターゲット検出手法を提案する。
論文 参考訳(メタデータ) (2022-01-22T03:25:24Z) - Self-Adversarial Training incorporating Forgery Attention for Image
Forgery Localization [40.622844703837046]
本稿では、より堅牢なパフォーマンスを実現するために、動的にトレーニングデータを拡大するセルフアドバイサルトレーニング戦略を提案する。
我々は、粗大なネットワークを利用して、元の領域と改ざんされた領域のノイズの不整合を高める。
提案アルゴリズムは,異なるベンチマークデータセットにおいて,最先端の手法よりも明確なマージンで,着実に性能を向上する。
論文 参考訳(メタデータ) (2021-07-06T07:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。