Fugu-MT 論文翻訳(概要): Improving Apple Object Detection with Occlusion-Enhanced Distillation

論文の概要: Improving Apple Object Detection with Occlusion-Enhanced Distillation

arxiv url: http://arxiv.org/abs/2409.01573v1
Date: Tue, 3 Sep 2024 03:11:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 03:06:29.154832
Title: Improving Apple Object Detection with Occlusion-Enhanced Distillation
Title（参考訳）: Occlusion-Enhanced Distillation によるApple オブジェクト検出の改善
Authors: Liang Geng,
Abstract要約: 自然環境で成長するリンゴは、しばしば葉や枝から激しい視覚障害に直面する。 OED(Occlusion-Enhanced Distillation)と呼ばれる手法を導入し、隠蔽データセット上の意味的に整合した特徴の学習を規則化する。提案手法は, 広範囲な比較実験により, 最先端技術よりも優れていた。
参考スコア（独自算出の注目度）: 1.0049237739132246
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Apples growing in natural environments often face severe visual obstructions from leaves and branches. This significantly increases the risk of false detections in object detection tasks, thereby escalating the challenge. Addressing this issue, we introduce a technique called "Occlusion-Enhanced Distillation" (OED). This approach utilizes occlusion information to regularize the learning of semantically aligned features on occluded datasets and employs Exponential Moving Average (EMA) to enhance training stability. Specifically, we first design an occlusion-enhanced dataset that integrates Grounding DINO and SAM methods to extract occluding elements such as leaves and branches from each sample, creating occlusion examples that reflect the natural growth state of fruits. Additionally, we propose a multi-scale knowledge distillation strategy, where the student network uses images with increased occlusions as inputs, while the teacher network employs images without natural occlusions. Through this setup, the strategy guides the student network to learn from the teacher across scales of semantic and local features alignment, effectively narrowing the feature distance between occluded and non-occluded targets and enhancing the robustness of object detection. Lastly, to improve the stability of the student network, we introduce the EMA strategy, which aids the student network in learning more generalized feature expressions that are less affected by the noise of individual image occlusions. Our method significantly outperforms current state-of-the-art techniques through extensive comparative experiments.
Abstract（参考訳）: 自然環境で成長するリンゴは、しばしば葉や枝から激しい視覚障害に直面する。これにより、オブジェクト検出タスクにおける偽検出のリスクが大幅に増加し、課題がエスカレートされる。この問題に対処するため,オクルージョン強化蒸留(OED)と呼ばれる技術を導入する。このアプローチでは、隠蔽情報を用いて、隠蔽されたデータセット上の意味的に整合した特徴の学習を規則化し、訓練安定性を高めるために指数移動平均(EMA)を用いる。具体的には,まずDINO法とSAM法を統合したオクルージョン強化データセットを設計し,各試料から葉や枝などのオクルージョン要素を抽出し,果実の自然成長状態を反映したオクルージョン例を作成する。また, 学生ネットワークでは, 教師ネットワークでは, 自然閉塞のない画像を用いているのに対し, 教師ネットワークでは, 学習者ネットワークでは, 入力としてオクルージョンが増大した画像を使用するマルチスケールの知識蒸留戦略を提案する。この設定により、教師ネットワークは、意味的・局所的な特徴アライメントのスケールを越えて学習し、隠蔽対象と非隠蔽対象との間の特徴距離を効果的に狭め、オブジェクト検出の堅牢性を高める。最後に,学生ネットワークの安定性を向上させるために,個々の画像閉塞音の影響を受けない,より一般化された特徴表現の学習を支援するEMA戦略を導入する。提案手法は, 広範囲な比較実験により, 最先端技術よりも優れていた。

関連論文リスト

Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文参考訳（メタデータ） (2025-03-03T06:16:31Z)
Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。 MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。 MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文参考訳（メタデータ） (2025-01-18T11:57:20Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
MRIFE: A Mask-Recovering and Interactive-Feature-Enhancing Semantic Segmentation Network For Relic Landslide Detection [7.6822321138894765]
長い期間にわたって形成された遺物地すべりは、再活性化の可能性を秘めており、危険な地質現象となっている。遺物地すべりの高解像度リモートセンシング画像は、物体の視界のぼかし問題など、多くの課題に直面している。より効率的な特徴抽出と分離のためのセマンティックセグメンテーションモデルとして,マスクの回収と対話型フェールエンハンシング(MRIFE)を提案する。提案したMRIFEは実地すべりデータセットを用いて評価され,実験結果から,地すべり検出の性能が大幅に向上することが示された。
論文参考訳（メタデータ） (2024-11-26T07:15:50Z)
Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。 PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文参考訳（メタデータ） (2024-11-22T05:41:00Z)
SurANet: Surrounding-Aware Network for Concealed Object Detection via Highly-Efficient Interactive Contrastive Learning Strategy [55.570183323356964]
本稿では,隠蔽物体検出のための新しいSurrounding-Aware Network,すなわちSurANetを提案する。周辺特徴の差分融合を用いて特徴写像のセマンティクスを強化し,隠蔽対象の強調を行う。次に、周囲の特徴写像を対照的に学習することで隠蔽対象を識別するために、周囲のコントラストロスを適用した。
論文参考訳（メタデータ） (2024-10-09T13:02:50Z)
Deep Generative Adversarial Network for Occlusion Removal from a Single Image [3.5639148953570845]
本稿では,完全自動2段階畳み込みニューラルネットワークを提案する。我々は、GANを利用して、構造とテクスチャの両方を含む現実的なコンテンツを、インペイントのための単一ショットで合成する。
論文参考訳（メタデータ） (2024-09-20T06:00:45Z)
Semantic Deep Hiding for Robust Unlearnable Examples [33.68037533119807]
深層学習モデルを誤解させ、データを不正な探索から防ぐために、未学習例が提案されている。本稿では,高次特徴に富んだセマンティック画像を適応的に隠蔽するDeep Hiding方式を提案する。提案手法は学習不可能な事例に対して顕著なロバスト性を示し,その有効性を示す。
論文参考訳（メタデータ） (2024-06-25T08:05:42Z)
Multilevel Saliency-Guided Self-Supervised Learning for Image Anomaly Detection [15.212031255539022]
異常検出(AD)はコンピュータビジョンの基本課題である。そこで我々は,サリエンシガイダンスを活用して意味的手がかりを付加するCutSwapを提案する。 CutSwapは、2つの主流ADベンチマークデータセット上で最先端のADパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-30T08:03:53Z)
Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文参考訳（メタデータ） (2023-08-13T10:07:46Z)
PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-08-08T01:55:44Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文参考訳（メタデータ） (2023-03-29T18:07:25Z)
Learning Efficient Representations for Enhanced Object Detection on Large-scene SAR Images [16.602738933183865]
SAR(Synthetic Aperture Radar)画像のターゲットの検出と認識は難しい問題である。近年開発されたディープラーニングアルゴリズムは,SAR画像の固有の特徴を自動的に学習することができる。本稿では,効率的かつ堅牢なディープラーニングに基づくターゲット検出手法を提案する。
論文参考訳（メタデータ） (2022-01-22T03:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。