Fugu-MT 論文翻訳(概要): Class-specific diffusion models improve military object detection in a low-data domain

論文の概要: Class-specific diffusion models improve military object detection in a low-data domain

arxiv url: http://arxiv.org/abs/2604.18076v1
Date: Mon, 20 Apr 2026 10:46:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.816504
Title: Class-specific diffusion models improve military object detection in a low-data domain
Title（参考訳）: クラス固有拡散モデルによる低データ領域における軍事対象検出の改善
Authors: Ella P. Fokkinga, Jan Erik van Woerden, Thijs A. Eker, Sebastiaan P. Snel, Elfi I. S. Hofmeijer, Klamer Schutte, Friso G. Heslinga,
Abstract要約: 拡散に基づく画像合成は、AIベースの物体検出のための合成トレーニングデータの有望な情報源として登場した。テキスト・画像拡散モデルFLUX.1をLoRAを用いて微調整した。生成モデルは、同じ限られたトレーニングサンプルを活用するため、追加の実際のデータを必要としない。
参考スコア（独自算出の注目度）: 0.6475189298553835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion-based image synthesis has emerged as a promising source of synthetic training data for AI-based object detection and classification. In this work, we investigate whether images generated with diffusion can improve military vehicle detection under low-data conditions. We fine-tuned the text-to-image diffusion model FLUX.1 [dev] using LoRA with only 8 or 24 real images per class across 15 vehicle categories, resulting in class-specific diffusion models, which were used to generate new samples from automatically generated text prompts. The same real images were used to fine-tune the RF-DETR detector for a 15-class object detection task. Synthetic datasets generated by the diffusion models were then used to further improve detector performance. Importantly, no additional real data was required, as the generative models leveraged the same limited training samples. FLUX-generated images improved detection performance, particularly in the low-data regime (up to +8.0% mAP$_{50}$ with 8 real samples). To address the limited geometric control of text prompt-based diffusion, we additionally generated structurally guided synthetic data using ControlNet with Canny edge-map conditioning, yielding a FLUX-ControlNet (FLUX-CN) dataset with explicit control over viewpoint and pose. Structural guidance further enhanced performance when data is scarce (+4.1% mAP$_{50}$ with 8 real samples), but no additional benefit was observed when more real data is available. This study demonstrates that object-specific diffusion models are effective for improving military object detection in a low-data domain, and that structural guidance is most beneficial when real data is highly limited. These results highlight generative image data as an alternative to traditional simulation pipelines for the training of military AI systems.
Abstract（参考訳）: 拡散に基づく画像合成は、AIに基づく物体検出と分類のための合成トレーニングデータの有望な情報源として登場した。本研究では,拡散によって生成された画像が,低データ条件下での軍用車両検出に有効かどうかを検討する。テキスト間拡散モデルFLUX.1[dev]を15の車両カテゴリにまたがって,クラス毎に8ないし24個の実画像しか持たないLoRAを用いて微調整し,その結果,自動生成されたテキストプロンプトから新たなサンプルを生成するクラス固有の拡散モデルが得られた。 RF-DETR検出器を15クラスの物体検出タスクのために微調整するために、同じ実際の画像が使用された。拡散モデルによって生成された合成データセットは、検出器の性能をさらに向上するために使用される。重要なことは、生成モデルが同じ限られたトレーニングサンプルを活用するため、追加の実際のデータは不要である。 FLUXが生成した画像は検出性能を向上し、特に低データ方式では(実サンプル8枚で+8.0% mAP$_{50}$まで)。テキストプロンプトに基づく拡散の限られた幾何学的制御に対処するため、我々はCannyエッジマップ条件付き制御ネットを用いた構造的ガイド付き合成データを生成し、視点とポーズを明示的に制御したFLUX-ControlNet(FLUX-CN)データセットを得た。構造的ガイダンスでは、データが不足している場合(実際のサンプルが8つある場合、+4.1% mAP$_{50}$)のパフォーマンスがさらに向上した。本研究では、オブジェクト固有の拡散モデルが、低データ領域における軍事対象の検出を改善するのに有効であること、そして、実際のデータが極めて制限された場合に、構造的ガイダンスが最も有用であることを実証する。これらの結果は、軍用AIシステムのトレーニングのための従来のシミュレーションパイプラインの代替として、生成画像データを強調している。

関連論文リスト

When Model Knowledge meets Diffusion Model: Diffusion-assisted Data-free Image Synthesis with Alignment of Domain and Class [18.81528537866941]
オープンソースで事前トレーニングされたモデルは、多様なアプリケーションにとって大きな可能性を秘めているが、トレーニングデータが利用できない場合には、その実用性は低下する。データ自由画像合成(DFIS)は、学習済みモデルの学習データ分布を元のデータにアクセスすることなく近似した画像を生成することを目的としている。 DDISはDiffusion-assisted Data-free Image Synthesis法として,テキストから画像への拡散モデルを利用した最初の画像合成法である。
論文参考訳（メタデータ） (2025-06-18T11:51:40Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。 FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文参考訳（メタデータ） (2024-03-27T02:24:00Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
InstaGen: Enhancing Object Detection by Training on Synthetic Dataset [59.445498550159755]
本稿では,オブジェクト検出機能の向上,例えばカテゴリ拡大や検出性能の向上など,新たなパラダイムを提案する。我々は、インスタンスレベルのグラウンドヘッドを事前訓練された生成拡散モデルに統合し、生成された画像のインスタンスをローカライズする機能で拡張する。我々は、InstaGenと呼ばれる拡散モデルの強化版がデータシンセサイザーとして機能することを示すために、徹底的な実験を行う。
論文参考訳（メタデータ） (2024-02-08T18:59:53Z)
Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文参考訳（メタデータ） (2021-02-09T20:28:35Z)
Sparse Signal Models for Data Augmentation in Deep Learning ATR [0.8999056386710496]
ドメイン知識を取り入れ,データ集約学習アルゴリズムの一般化能力を向上させるためのデータ拡張手法を提案する。本研究では,空間領域における散乱中心のスパース性とアジムタル領域における散乱係数の滑らかな変動構造を活かし,過パラメータモデルフィッティングの問題を解く。
論文参考訳（メタデータ） (2020-12-16T21:46:33Z)
Can Synthetic Data Improve Object Detection Results for Remote Sensing Images? [15.466412729455874]
本稿では,リモートセンシング画像航空機検出の性能向上のために,広域分布のリアルな合成データの利用を提案する。レンダリング中に、インスタンスのサイズや背景画像のクラスなど、パラメータをランダムに設定します。合成画像をよりリアルにするために,CycleGANと実際の未ラベル画像を用いて,画素レベルで合成画像を洗練する。
論文参考訳（メタデータ） (2020-06-09T02:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。