論文の概要: DODA: Diffusion for Object-detection Domain Adaptation in Agriculture
- arxiv url: http://arxiv.org/abs/2403.18334v1
- Date: Wed, 27 Mar 2024 08:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:57:01.710371
- Title: DODA: Diffusion for Object-detection Domain Adaptation in Agriculture
- Title(参考訳): DODA:農業におけるオブジェクト検出ドメイン適応のための拡散
- Authors: Shuai Xiang, Pieter M. Blok, James Burridge, Haozhou Wang, Wei Guo,
- Abstract要約: 本稿では,農業の新しい領域を対象とした高品質なオブジェクト検出データを生成するデータシンセサイザーであるDODAを提案する。
具体的には、画像としてレイアウトを符号化することでレイアウト・ツー・イメージの制御性を向上し、ラベルの品質を向上させる。
- 参考スコア(独自算出の注目度): 4.549305421261851
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The diverse and high-quality content generated by recent generative models demonstrates the great potential of using synthetic data to train downstream models. However, in vision, especially in objection detection, related areas are not fully explored, the synthetic images are merely used to balance the long tails of existing datasets, and the accuracy of the generated labels is low, the full potential of generative models has not been exploited. In this paper, we propose DODA, a data synthesizer that can generate high-quality object detection data for new domains in agriculture. Specifically, we improve the controllability of layout-to-image through encoding layout as an image, thereby improving the quality of labels, and use a visual encoder to provide visual clues for the diffusion model to decouple visual features from the diffusion model, and empowering the model the ability to generate data in new domains. On the Global Wheat Head Detection (GWHD) Dataset, which is the largest dataset in agriculture and contains diverse domains, using the data synthesized by DODA improves the performance of the object detector by 12.74-17.76 AP$_{50}$ in the domain that was significantly shifted from the training data.
- Abstract(参考訳): 最近の生成モデルによって生成される多種多様で高品質なコンテンツは、下流モデルのトレーニングに合成データを使用する大きな可能性を示している。
しかし、視覚、特に対物検出において、関連する領域は十分に探索されず、合成画像は既存のデータセットの長い尾のバランスをとるためにのみ使用され、生成されたラベルの精度は低く、生成モデルの可能性は活用されていない。
本稿では,農業の新しい領域を対象とした高品質なオブジェクト検出データを生成するデータシンセサイザーであるDODAを提案する。
具体的には,画像としてレイアウトを符号化することでレイアウト・ツー・イメージの制御性を向上し,ラベルの品質を向上させるとともに,拡散モデルの視覚的特徴を拡散モデルから切り離すための視覚的手がかりを提供する視覚的エンコーダを用いて,新しいドメインでデータを生成する能力をモデルに与える。
農業で最大のデータセットであり、多様なドメインを含むGWHDデータセットでは、DODAによって合成されたデータを使用して、トレーニングデータから大幅にシフトしたドメイン内のオブジェクト検出器のパフォーマンスを12.74-17.76 AP$_{50}$で改善する。
関連論文リスト
- DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - DreamDA: Generative Data Augmentation with Diffusion Models [68.22440150419003]
本稿では,新しい分類指向フレームワークDreamDAを提案する。
DreamDAは、オリジナルのデータのトレーニングイメージを種として考慮して、オリジナルのデータ分布に準拠する多様なサンプルを生成する。
また、生成したデータのラベルは、対応するシード画像のラベルと一致しない可能性があるため、擬似ラベルを生成するための自己学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-03-19T15:04:35Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross
Appearance-Edge Learning [49.93362169016503]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - UAV-Sim: NeRF-based Synthetic Data Generation for UAV-based Perception [62.71374902455154]
ニューラルレンダリングの最近の進歩を利用して、静的および動的ノベルビューUAVベースの画像レンダリングを改善する。
本研究では,主に実データと合成データのハイブリッドセットに基づいて最先端検出モデルが最適化された場合,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-25T00:20:37Z) - ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection [2.7648976108201815]
本稿では,GAN(Generative Adversarial Network)を用いて,実データと合成データのギャップを埋めることを提案する。
我々のアプローチは、視覚的に可視なサンプルを生成するだけでなく、実際のドメインのラベルも必要としない。
論文 参考訳(メタデータ) (2023-07-21T05:26:32Z) - SPAC-Net: Synthetic Pose-aware Animal ControlNet for Enhanced Pose
Estimation [19.035988285379116]
我々は、SPAC-Net(Synthetic Pose-aware Animal ControlNet)と呼ばれる新しいアプローチを提案する。
本研究では,変分オートエンコーダ(VAE)ベースのデータ生成パイプラインが生成した可塑性ポーズデータを利用して,実データに近いポーズラベルを持つ合成データを生成する。
さらに、動物と背景のHED境界を別々に検出し、生成したデータの精度と安定性を向上させるBi-ControlNet構造を提案する。
論文 参考訳(メタデータ) (2023-05-29T01:56:42Z) - Boosting Human-Object Interaction Detection with Text-to-Image Diffusion
Model [22.31860516617302]
本稿では,事前学習したテキスト画像拡散モデルに基づく新しいHOI検出方式であるDiffHOIを紹介する。
HOIデータセットのギャップを埋めるために、クラスバランス、大規模、高多様性の合成データセットであるSynHOIを提案する。
実験により、DiffHOIは通常の検出(41.50 mAP)とゼロショット検出において、最先端の技術を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-20T17:59:23Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。