論文の概要: Creating Image Datasets in Agricultural Environments using DALL.E:
Generative AI-Powered Large Language Model
- arxiv url: http://arxiv.org/abs/2307.08789v2
- Date: Sun, 10 Mar 2024 17:47:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:48:09.833004
- Title: Creating Image Datasets in Agricultural Environments using DALL.E:
Generative AI-Powered Large Language Model
- Title(参考訳): DALL.Eを用いた農業環境における画像データセットの作成:AIによる生成型大規模言語モデル
- Authors: Ranjan Sapkota, Dawood Ahmed, Manoj Karkee
- Abstract要約: テキスト・ツー・イメージと画像・ツー・イメージ(変化)の2つのアプローチを用いた研究
画像から画像までの手法で生成した画像は、テキストから画像へのアプローチで生成した画像よりも現実的であった。
- 参考スコア(独自算出の注目度): 0.4143603294943439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research investigated the role of artificial intelligence (AI),
specifically the DALL.E model by OpenAI, in advancing data generation and
visualization techniques in agriculture. DALL.E, an advanced AI image
generator, works alongside ChatGPT's language processing to transform text
descriptions and image clues into realistic visual representations of the
content. The study uses both approaches of image generation: text-to-image and
image-to-image (variation). Two types of datasets depicting fruit crops
environments and crop vs weed environment were generated. These AI-generated
images were then compared against ground truth images captured by sensors in
real agricultural fields. The comparison was based on Peak Signal-to-Noise
Ratio (PSNR) and Feature Similarity Index (FSIM) metrics. For fruit crops,
image-to-image generation exhibited a 5.78% increase in average PSNR over
text-to-image methods, signifying superior image clarity and quality. However,
this method also resulted in a 10.23% decrease in average FSIM, indicating a
diminished structural and textural similarity to the original images.
Conversely, in crop vs weed scenarios, image-to-image generation showed a 3.77%
increase in PSNR, demonstrating enhanced image precision, but experienced a
slight 0.76% decrease in FSIM, suggesting a minor reduction in feature
similarity. Similar to these measures, human evaluation also showed that images
generated using image-to-image-based method were more realistic compared to
those generated with text-to-image approach. The results highlighted DALL.E's
potential in generating realistic agricultural image datasets and thus
accelerating the development and adoption of precision agricultural solutions.
- Abstract(参考訳): 本研究では,農業におけるデータ生成・可視化技術の発展における人工知能(AI),特にOpenAIによるDALL.Eモデルの役割について検討した。
先進的なAI画像生成装置であるDALL.Eは、ChatGPTの言語処理と連携して、テキスト記述や画像ヒントをリアルな視覚表現に変換する。
この研究は、画像生成のアプローチとして、テキスト・ツー・イメージと画像・ツー・イメージ(変化)の両方を用いる。
果実の作物環境と作物対雑草環境を表す2種類のデータセットを作成した。
これらのAI生成画像は、実際の農業分野のセンサーが捉えた地上の真実画像と比較された。
比較はピーク信号対雑音比(psnr)と特徴類似度指標(fsim)に基づいて行った。
果実作物の場合、画像・画像生成はテキスト・画像法よりも平均PSNRが5.78%増加し、画像の明瞭度と品質が向上した。
しかし、この方法は平均fsimが10.23%減少し、元の画像と構造的およびテクスチャ的類似性が低下したことを示している。
逆に、作物と雑草のシナリオでは、画像・画像生成はPSNRが3.77%増加し、画像精度が向上したが、FSIMは0.76%減少し、特徴の類似性がわずかに低下した。
これらの手法と同様に、画像から画像までの手法で生成した画像は、テキストから画像へのアプローチで生成した画像よりもリアルであることを示した。
結果は、dall.eが現実的な農業イメージデータセットを作成し、精密農業ソリューションの開発と採用を加速する可能性を強調した。
関連論文リスト
- FashionR2R: Texture-preserving Rendered-to-Real Image Translation with Diffusion Models [14.596090302381647]
本稿では,レンダリングの制御に基づく拡散モデルから生成するパワーを利用して,レンダリング画像のフォトリアリズム向上について検討する。
ドメイン知識注入(Domain Knowledge Injection, DKI)と現実画像生成(Realistic Image Generation, RIG)という2つの段階から構成される。
論文 参考訳(メタデータ) (2024-10-18T12:48:22Z) - A Sanity Check for AI-generated Image Detection [49.08585395873425]
本稿では,AIによる画像検出の課題が解決されたかどうかの検査を行う。
既存の手法の一般化を定量化するために,Chameleonデータセット上で,既製のAI生成画像検出器を9つ評価した。
複数の専門家が同時に視覚的アーチファクトやノイズパターンを抽出するAI生成画像検出装置(AID)を提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - The Adversarial AI-Art: Understanding, Generation, Detection, and Benchmarking [47.08666835021915]
本稿では,AI生成画像(AI-art)を敵のシナリオで理解し,検出するための体系的な試みを提案する。
ARIAという名前のデータセットには、アートワーク(絵画)、ソーシャルメディアイメージ、ニュース写真、災害シーン、アニメ画像の5つのカテゴリに140万以上の画像が含まれている。
論文 参考訳(メタデータ) (2024-04-22T21:00:13Z) - PatchCraft: Exploring Texture Patch for Efficient AI-generated Image
Detection [39.820699370876916]
本稿では,多種多様な生成モデルを用いて生成した偽画像を識別できる新しいAI生成画像検出器を提案する。
グローバルな意味情報を消去し,テクスチャパッチを強化するために,新しいSmash&Reconstruction前処理を提案する。
我々のアプローチは最先端のベースラインよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-11-21T07:12:40Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - CIFAKE: Image Classification and Explainable Identification of
AI-Generated Synthetic Images [7.868449549351487]
本稿では,コンピュータビジョンによるAI生成画像の認識能力を高めることを提案する。
写真が本物かAIによって生成されるかに関して、バイナリ分類問題として存在する2つのデータセット。
本研究では,畳み込みニューラルネットワーク(CNN)を用いて画像をリアルとフェイクの2つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-03-24T16:33:06Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。