Fugu-MT 論文翻訳(概要): GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data Generation

論文の概要: GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data Generation

arxiv url: http://arxiv.org/abs/2306.04607v8
Date: Sat, 17 Feb 2024 01:43:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 06:32:20.860489
Title: GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data Generation
Title（参考訳）: GeoDiffusion:オブジェクト検出データ生成のためのテキストプロンプト幾何制御
Authors: Kai Chen, Enze Xie, Zhe Chen, Yibo Wang, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung
Abstract要約: 様々な幾何学的条件をテキストプロンプトに柔軟に翻訳できるシンプルなフレームワークであるGeoDiffusionを提案する。われわれのGeoDiffusionは、バウンディングボックスだけでなく、自動運転シーンのカメラビューのような余分な幾何学的条件もエンコードできる。
参考スコア（独自算出の注目度）: 91.01581867841894
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have attracted significant attention due to the remarkable ability to create content and generate data for tasks like image classification. However, the usage of diffusion models to generate the high-quality object detection data remains an underexplored area, where not only image-level perceptual quality but also geometric conditions such as bounding boxes and camera views are essential. Previous studies have utilized either copy-paste synthesis or layout-to-image (L2I) generation with specifically designed modules to encode the semantic layouts. In this paper, we propose the GeoDiffusion, a simple framework that can flexibly translate various geometric conditions into text prompts and empower pre-trained text-to-image (T2I) diffusion models for high-quality detection data generation. Unlike previous L2I methods, our GeoDiffusion is able to encode not only the bounding boxes but also extra geometric conditions such as camera views in self-driving scenes. Extensive experiments demonstrate GeoDiffusion outperforms previous L2I methods while maintaining 4x training time faster. To the best of our knowledge, this is the first work to adopt diffusion models for layout-to-image generation with geometric conditions and demonstrate that L2I-generated images can be beneficial for improving the performance of object detectors.
Abstract（参考訳）: 拡散モデルは、コンテンツを作成し、画像分類のようなタスクのためにデータを生成する素晴らしい能力のために、大きな注目を集めている。しかし、高品質な物体検出データを生成するための拡散モデルの利用は、画像レベルの知覚的品質だけでなく、バウンディングボックスやカメラビューのような幾何学的条件も必要不可欠な領域である。これまでの研究では、コピー・ペースト合成またはレイアウト・ツー・イメージ(l2i)生成を使い、セマンティックレイアウトを符号化するために特別に設計されたモジュールを使用してきた。本稿では,様々な幾何学的条件をテキストプロンプトに柔軟に翻訳し,高品質な検出データ生成のための事前学習されたテキスト・ツー・イメージ(t2i)拡散モデルを可能にするシンプルなフレームワークgeodiffusionを提案する。従来のl2i法とは異なり、geodiffusionはバウンディングボックスだけでなく、自動運転シーンのカメラビューなどの余分な幾何学的条件もエンコードできる。大規模な実験では、GeoDiffusionは従来のL2I法よりも高速に4倍のトレーニング時間を維持する。私たちの知る限りでは、幾何学的な条件でレイアウトから画像への拡散モデルを採用し、l2i生成画像が物体検出器の性能向上に有用であることを実証するのはこれが初めてです。

関連論文リスト

One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation [33.56782043207013]
Feature Auto-Encoder (FAE) は、学習済みの視覚表現を、単一の注意層としてほとんど使用せずに生成に適した低次元の潜伏子に適応させる。 FAEはクラス条件とテキスト・ツー・イメージのベンチマークで高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-12-08T18:57:26Z)
TPIE: Topology-Preserved Image Editing With Text Instructions [14.399084325078878]
テキストによるトポロジー保存画像編集(TPIE) TPIEは、新しく生成されたサンプルを与えられた入力テンプレートの変形可能なバリエーションとして扱い、制御可能かつ構造保存可能な編集を可能にする。 TPIEを2次元画像と3次元画像の多種多様なセットで検証し,最新の画像編集手法と比較した。
論文参考訳（メタデータ） (2024-11-22T22:08:27Z)
GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-03-18T17:50:41Z)
DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文参考訳（メタデータ） (2024-03-11T03:24:44Z)
R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文参考訳（メタデータ） (2023-10-13T05:48:42Z)
Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。検出精度は初期41%からOODテストセットの92%に改善した。
論文参考訳（メタデータ） (2023-09-23T05:02:31Z)
3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文参考訳（メタデータ） (2023-03-31T09:03:18Z)
LayoutDiffuse: Adapting Foundational Diffusion Models for Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文参考訳（メタデータ） (2023-02-16T14:20:25Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)
InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文参考訳（メタデータ） (2021-12-08T21:39:00Z)
Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文参考訳（メタデータ） (2020-04-01T12:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。