論文の概要: Synthesizing Reality: Leveraging the Generative AI-Powered Platform Midjourney for Construction Worker Detection
- arxiv url: http://arxiv.org/abs/2507.13221v1
- Date: Thu, 17 Jul 2025 15:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.55364
- Title: Synthesizing Reality: Leveraging the Generative AI-Powered Platform Midjourney for Construction Worker Detection
- Title(参考訳): 合成現実性: 建設作業者検出のためのAI駆動型プラットフォームミッドジャーニーの活用
- Authors: Hongyang Zhao, Tianyu Liang, Sina Davari, Daeho Kim,
- Abstract要約: 本研究では, 建設作業者検出に適した画像合成手法を提案する。
このアプローチでは、3000の異なるプロンプトを定式化することにより、12,000の合成画像のコレクションを生成する。
実画像データセットの評価は有望な結果を得た。
- 参考スコア(独自算出の注目度): 0.3011426942929757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advancements in deep neural networks (DNNs) have substantially enhanced visual AI's capabilities, the challenge of inadequate data diversity and volume remains, particularly in construction domain. This study presents a novel image synthesis methodology tailored for construction worker detection, leveraging the generative-AI platform Midjourney. The approach entails generating a collection of 12,000 synthetic images by formulating 3000 different prompts, with an emphasis on image realism and diversity. These images, after manual labeling, serve as a dataset for DNN training. Evaluation on a real construction image dataset yielded promising results, with the model attaining average precisions (APs) of 0.937 and 0.642 at intersection-over-union (IoU) thresholds of 0.5 and 0.5 to 0.95, respectively. Notably, the model demonstrated near-perfect performance on the synthetic dataset, achieving APs of 0.994 and 0.919 at the two mentioned thresholds. These findings reveal both the potential and weakness of generative AI in addressing DNN training data scarcity.
- Abstract(参考訳): 近年のディープニューラルネットワーク(DNN)の進歩は、視覚AIの能力を大幅に向上させたが、データ多様性とボリュームの不適切な課題は、特に建設領域において依然として残っている。
本研究では, 生成AIプラットフォームMidjourneyを活用した, 建設作業者検出に適した画像合成手法を提案する。
このアプローチでは、3000の異なるプロンプトを定式化し、イメージリアリズムと多様性を重視した12,000の合成画像のコレクションを生成する。
これらの画像は手動ラベリングの後、DNNトレーニングのデータセットとして機能する。
実画像データセットの評価は, 平均精度0.937と0.642をそれぞれ0.5と0.5と0.5と0.5と0.95で達成し, 有望な結果を得た。
特に、このモデルでは合成データセット上でほぼ完全な性能を示し、2つのしきい値において0.994と0.919のAPを達成した。
これらの結果は、DNNトレーニングデータの不足に対処する上で、生成的AIの可能性と弱点の両方を明らかにしている。
関連論文リスト
- Foundation Models for Zero-Shot Segmentation of Scientific Images without AI-Ready Data [0.0]
Zenesisは、科学画像のデータ準備によって生じる障壁を最小限に抑えるために設計された、包括的なノーコードインタラクティブプラットフォームである。
我々は、生の科学データに対するゼロショット操作を可能にする軽量なマルチモーダル適応技術を開発した。
この結果は,特に高品質なアノテートデータセットが利用できない分野において,Zenesisは科学的応用の強力なツールであることを示す。
論文 参考訳(メタデータ) (2025-06-30T16:45:23Z) - Stylized Structural Patterns for Improved Neural Network Pre-training [1.8641315013048299]
コンピュータビジョンにおけるディープラーニングモデルは、実際の画像の大規模なデータセットを必要とする。
最近の研究では、合成データが代替として提案されているが、訓練されたモデルはしばしば性能が劣っている。
そこで我々は,新しい種類の合成データを導入し,改良されたニューラルフラクタル定式化を提案する。
第二に,視覚的特徴を,ライセンスのない小さな実画像から合成データセットへ伝達する手法であるリバースススタイリングを提案する。
論文 参考訳(メタデータ) (2025-06-24T09:47:31Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - Improving Object Detection by Modifying Synthetic Data with Explainable AI [3.0519884745675485]
本稿では,合成画像の設計効率を向上させるための新しい概念的アプローチを提案する。
XAI技術は、これらの画像を生成するために使用される3Dメッシュモデルを修正する、ループ中の人間プロセスを導く。
合成データは、トレーニング中に見えない方向の車両の検出を4.6%改善できることを示す。
論文 参考訳(メタデータ) (2024-12-02T13:24:43Z) - Merging synthetic and real embryo data for advanced AI predictions [69.07284335967019]
我々は、作成した2つのデータセットを用いて、2つの生成モデルをトレーニングし、既存の1つのデータセットを使用して、様々な細胞レベルで合成胚画像を生成する。
これらは実画像と組み合わせて、胚細胞ステージ予測のための分類モデルを訓練した。
その結果,実データと合成画像を組み合わせることで分類性能が向上し,実データのみをトレーニングした場合の94.5%に比べて97%の精度が得られた。
論文 参考訳(メタデータ) (2024-12-02T08:24:49Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Synthetic Data and Hierarchical Object Detection in Overhead Imagery [0.0]
衛星画像における低・ゼロサンプル学習を向上させるための新しい合成データ生成および拡張技術を開発した。
合成画像の有効性を検証するために,検出モデルと2段階モデルの訓練を行い,実際の衛星画像上で得られたモデルを評価する。
論文 参考訳(メタデータ) (2021-01-29T22:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。