論文の概要: Randomize to Generalize: Domain Randomization for Runway FOD Detection
- arxiv url: http://arxiv.org/abs/2309.13264v1
- Date: Sat, 23 Sep 2023 05:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:04:29.373040
- Title: Randomize to Generalize: Domain Randomization for Runway FOD Detection
- Title(参考訳): randomize to generalize: 滑走路fod検出のためのドメインランダム化
- Authors: Javaria Farooq, Nayyer Aafaq, M Khizer Ali Khan, Ammar Saleem, M
Ibraheem Siddiqui
- Abstract要約: 細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
- 参考スコア(独自算出の注目度): 1.4249472316161877
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tiny Object Detection is challenging due to small size, low resolution,
occlusion, background clutter, lighting conditions and small object-to-image
ratio. Further, object detection methodologies often make underlying assumption
that both training and testing data remain congruent. However, this presumption
often leads to decline in performance when model is applied to
out-of-domain(unseen) data. Techniques like synthetic image generation are
employed to improve model performance by leveraging variations in input data.
Such an approach typically presumes access to 3D-rendered datasets. In
contrast, we propose a novel two-stage methodology Synthetic Randomized Image
Augmentation (SRIA), carefully devised to enhance generalization capabilities
of models encountering 2D datasets, particularly with lower resolution which is
more practical in real-world scenarios. The first stage employs a weakly
supervised technique to generate pixel-level segmentation masks. Subsequently,
the second stage generates a batch-wise synthesis of artificial images,
carefully designed with an array of diverse augmentations. The efficacy of
proposed technique is illustrated on challenging foreign object debris (FOD)
detection. We compare our results with several SOTA models including CenterNet,
SSD, YOLOv3, YOLOv4, YOLOv5, and Outer Vit on a publicly available FOD-A
dataset. We also construct an out-of-distribution test set encompassing 800
annotated images featuring a corpus of ten common categories. Notably, by
harnessing merely 1.81% of objects from source training data and amalgamating
with 29 runway background images, we generate 2227 synthetic images. Subsequent
model retraining via transfer learning, utilizing enriched dataset generated by
domain randomization, demonstrates significant improvement in detection
accuracy. We report that detection accuracy improved from an initial 41% to 92%
for OOD test set.
- Abstract(参考訳): 細い物体検出は、小サイズ、低解像度、オクルージョン、背景クラッタ、照明条件、オブジェクトと画像の比が小さいため、難しい。
さらに、オブジェクト検出手法は、トレーニングデータとテストデータの両方が一致していると仮定することが多い。
しかし、この仮定は、モデルがドメイン外(未処理)データに適用されると、しばしば性能が低下する。
入力データの変動を利用してモデル性能を向上させるために合成画像生成などの技術が用いられている。
このようなアプローチは通常、3Dレンダリングされたデータセットへのアクセスを前提とします。
対照的に,2dデータセットに遭遇するモデルの一般化能力,特に実世界のシナリオでより実用的な低分解能化を念頭において考案した,新しい2段階合成ランダム化画像拡張法(sria)を提案する。
第1段階では、ピクセルレベルのセグメンテーションマスクを生成するために弱制御技術を採用している。
その後、第2段階は、様々な拡張の配列で慎重に設計された人工画像のバッチワイズ合成を生成する。
提案手法の有効性は, 異物デブリ検出法 (fod) への挑戦性を示す。
この結果と,CenterNet,SSD,YOLOv3,YOLOv4,YOLOv5,Outer VitなどのSOTAモデルとの比較を行った。
また、10の共通カテゴリのコーパスを特徴とする800の注釈付き画像を含む分散テストセットを構築した。
特に、ソーストレーニングデータからわずか1.81%のオブジェクトを利用でき、29の滑走路背景画像と照合することで、227の合成画像を生成する。
ドメインランダム化によって生成されたリッチなデータセットを活用するトランスファーラーニングによるその後のモデル再訓練は、検出精度を著しく向上させる。
検出精度は初期41%からOODテストセットの92%に改善した。
関連論文リスト
- High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Real-Time Object Detection in Occluded Environment with Background
Cluttering Effects Using Deep Learning [0.8192907805418583]
混在した環境下での車やタンクのリアルタイム検出のためのディープラーニングモデルに集中する。
開発した手法は、カスタムデータセットを作成し、ノイズの多いデータセットをきれいにするために前処理技術を使用する。
SSD-Mobilenet v2モデルの精度とフレームは、YOLO V3やYOLO V4よりも高い。
論文 参考訳(メタデータ) (2024-01-02T01:30:03Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Sim2Real Bilevel Adaptation for Object Surface Classification using Vision-Based Tactile Sensors [14.835051543002164]
我々は、物体表面を分類するための視覚ベースの触覚センサの分野におけるSim2Realギャップを橋渡しするために拡散モデルを訓練する。
我々は,YCBモデルセットから物体表面を均一にサンプリングして画像を生成するシミュレータを用いた。
これらのシミュレートされたイメージは、拡散モデルを使用して実際のドメインに変換され、自動的に分類器を訓練するためにラベル付けされる。
論文 参考訳(メタデータ) (2023-11-02T16:37:27Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Explore the Power of Synthetic Data on Few-shot Object Detection [27.26215175101865]
Few-shot Object Detection (FSOD) は、トレーニングのいくつかの例に限って、新しいカテゴリのオブジェクト検出器を拡張することを目的としている。
近年のテキスト・画像生成モデルでは,高品質な画像を生成する上で有望な結果が得られている。
この研究は、最先端のテキスト・ツー・イメージ・ジェネレータから生成された合成画像がFSODタスクにどのように貢献するかを幅広く研究している。
論文 参考訳(メタデータ) (2023-03-23T12:34:52Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Road Segmentation for Remote Sensing Images using Adversarial Spatial
Pyramid Networks [28.32775611169636]
合成画像生成と道路分割に構造化領域適応を適用した新しいモデルを提案する。
マルチレベルの特徴マップから学び、特徴のセマンティクスを改善するために、新しいスケールワイズアーキテクチャが導入された。
我々のモデルは、14.89Mパラメータと86.78B FLOPを持つマサチューセッツのデータセット上で、最先端の78.86 IOUを達成し、4倍少ないFLOPを持つが、より高精度(+3.47% IOU)である。
論文 参考訳(メタデータ) (2020-08-10T11:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。