論文の概要: PhytoSynth: Leveraging Multi-modal Generative Models for Crop Disease Data Generation with Novel Benchmarking and Prompt Engineering Approach
- arxiv url: http://arxiv.org/abs/2505.01823v1
- Date: Sat, 03 May 2025 14:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.287138
- Title: PhytoSynth: Leveraging Multi-modal Generative Models for Crop Disease Data Generation with Novel Benchmarking and Prompt Engineering Approach
- Title(参考訳): PhytoSynth:新しいベンチマークとプロンプトエンジニアリングアプローチによる作物病データ生成のためのマルチモーダル生成モデルを活用する
- Authors: Nitin Rai, Arnold W. Schumann, Nathan Boyd,
- Abstract要約: 既存の研究はGAN(Generative Adversarial Networks)ベースの画像と画像の翻訳に依存している。
本研究では,合成作物病画像を生成するためのマルチモーダルテキスト・ツー・イメージ手法について検討する。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting large-scale crop disease images in the field is labor-intensive and time-consuming. Generative models (GMs) offer an alternative by creating synthetic samples that resemble real-world images. However, existing research primarily relies on Generative Adversarial Networks (GANs)-based image-to-image translation and lack a comprehensive analysis of computational requirements in agriculture. Therefore, this research explores a multi-modal text-to-image approach for generating synthetic crop disease images and is the first to provide computational benchmarking in this context. We trained three Stable Diffusion (SD) variants-SDXL, SD3.5M (medium), and SD3.5L (large)-and fine-tuned them using Dreambooth and Low-Rank Adaptation (LoRA) fine-tuning techniques to enhance generalization. SD3.5M outperformed the others, with an average memory usage of 18 GB, power consumption of 180 W, and total energy use of 1.02 kWh/500 images (0.002 kWh per image) during inference task. Our results demonstrate SD3.5M's ability to generate 500 synthetic images from just 36 in-field samples in 1.5 hours. We recommend SD3.5M for efficient crop disease data generation.
- Abstract(参考訳): 現場で大規模な作物の病気の画像を集めるのは、労働集約的で時間を要する。
生成モデル(GM)は、現実世界の画像に似た合成サンプルを作成することで代替手段を提供する。
しかし、既存の研究は主にGAN(Generative Adversarial Networks)に基づく画像と画像の翻訳に依存しており、農業における計算要求の包括的な分析は欠如している。
そこで本研究では,合成作物病画像を生成するためのマルチモーダルテキスト・ツー・イメージ手法について検討し,この文脈で計算ベンチマークを行う最初の方法である。
我々はDreambooth and Low-Rank Adaptation (LoRA) を用いたSDXL, SD3.5M (medium), SD3.5L (large) の3つの安定拡散 (SD) 変種を訓練し, 一般化の促進を目的とした。
SD3.5Mは、平均メモリ使用量18GB、消費電力180W、総エネルギー使用量1.02kWh/500(画像当たり0.002kWh)など、他のものよりも優れていた。
SD3.5Mは,わずか36点のフィールドサンプルから合成画像500点を1.5時間で生成できることを示した。
我々は、効率的な作物病データ生成のためにSD3.5Mを推奨する。
関連論文リスト
- CoSimGen: Controllable Diffusion Model for Simultaneous Image and Mask Generation [1.9393128408121891]
既存の生成モデルは、高品質で同時画像マスク生成の必要性に対処できない。
本稿では,同時画像生成とマスク生成を同時に行うための拡散型フレームワークであるCoSimGenを提案する。
CoSimGenはすべてのデータセットで最先端のパフォーマンスを達成し、データセットで0.11、LPIPSで0.53の最低KIDを達成した。
論文 参考訳(メタデータ) (2025-03-25T13:48:22Z) - 3D Nephrographic Image Synthesis in CT Urography with the Diffusion Model and Swin Transformer [3.8557197729550485]
提案手法は,高品質な3次元腎画像の合成を効果的に行う。
画像の品質を損なうことなく、CTUの放射線線量を33.3%削減することができる。
論文 参考訳(メタデータ) (2025-02-26T23:22:31Z) - SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - A Domain Translation Framework with an Adversarial Denoising Diffusion
Model to Generate Synthetic Datasets of Echocardiography Images [0.5999777817331317]
臨床研究に好適な心エコー画像を作成するための枠組みを提案する。
いくつかのドメイン翻訳操作において、このような生成モデルによって高品質な画像サンプルを合成できることが確認された。
論文 参考訳(メタデータ) (2024-03-07T15:58:03Z) - CycleGAN Models for MRI Image Translation [12.59414239566275]
CycleGANは正確な精度で合成画像と再構成画像を生成することができた。
ソース(3テスラ)からターゲットドメイン(1.5テスラ)へのマッピング機能は、平均PSNR値が25.69$pm$2.49dB、MAE値が2106.27$pm$1218.37で最適に実行された。
論文 参考訳(メタデータ) (2023-12-28T22:54:15Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - Diffusion Probabilistic Models beat GANs on Medical Images [0.13386555802329278]
医療画像のための条件付き潜伏型DDPMであるMedfusionを提案する。
DDPMモデルとGANモデルを比較し,現在の医療領域における最先端モデルである。
本研究は, DDPMが医用領域における画像合成において, GANsの代替として優れていることを示す。
論文 参考訳(メタデータ) (2022-12-14T20:46:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。