論文の概要: BlendFusion -- Scalable Synthetic Data Generation for Diffusion Model Training
- arxiv url: http://arxiv.org/abs/2604.09022v1
- Date: Fri, 10 Apr 2026 06:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.723458
- Title: BlendFusion -- Scalable Synthetic Data Generation for Diffusion Model Training
- Title(参考訳): ブレンドフュージョン-拡散モデルトレーニングのためのスケーラブルな合成データ生成
- Authors: Thejas Venkatesh, Suguna Varshini Velury,
- Abstract要約: 経路トレースを用いた3次元シーンからの合成データ生成フレームワークであるBlendFusionを提案する。
パイプラインには、オブジェクト中心のカメラ配置戦略、堅牢なフィルタリング機構、自動キャプションが組み込まれている。
多様な3Dシーンから構築した画像キャプチャーデータセットであるFineBLENDの質を実証的に分析する。
- 参考スコア(独自算出の注目度): 0.07419401583272026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid adoption of diffusion models, synthetic data generation has emerged as a promising approach for addressing the growing demand for large-scale image datasets. However, images generated purely by diffusion models often exhibit visual inconsistencies, and training models on such data can create an autophagous feedback loop that leads to model collapse, commonly referred to as Model Autophagy Disorder (MAD). To address these challenges, we propose BlendFusion, a scalable framework for synthetic data generation from 3D scenes using path tracing. Our pipeline incorporates an object-centric camera placement strategy, robust filtering mechanisms, and automatic captioning to produce high-quality image-caption pairs. Using this pipeline, we curate FineBLEND, an image-caption dataset constructed from a diverse set of 3D scenes. We empirically analyze the quality of FineBLEND and compare it to several widely used image-caption datasets. We also demonstrate the effectiveness of our object-centric camera placement strategy relative to object-agnostic sampling approaches. Our open-source framework is designed for high configurability, enabling the community to create their own datasets from 3D scenes.
- Abstract(参考訳): 拡散モデルの急速な普及に伴い、大規模な画像データセットの需要増加に対応するための有望なアプローチとして、合成データ生成が出現している。
しかしながら、拡散モデルによって純粋に生成された画像は、しばしば視覚的不整合を示し、そのようなデータに基づくトレーニングモデルは、モデルオートファジー障害(MAD)と呼ばれる、モデル崩壊につながる自食フィードバックループを生成することができる。
これらの課題に対処するために,パストレースを用いた3次元シーンからの合成データ生成のためのスケーラブルなフレームワークであるBlendFusionを提案する。
パイプラインには、オブジェクト中心のカメラ配置戦略、堅牢なフィルタリング機構、高品質な画像キャプチャペアを生成する自動キャプションが組み込まれている。
このパイプラインを使用して、多様な3Dシーンからなる画像キャプチャデータセットであるFineBLENDをキュレートする。
我々は、FinBLENDの品質を実証的に分析し、それを広く使われている画像キャプチャーデータセットと比較する。
また,オブジェクト依存型サンプリング手法と比較して,オブジェクト中心のカメラ配置戦略の有効性を実証する。
私たちのオープンソースのフレームワークは、高い構成性のために設計されており、コミュニティは3Dシーンから独自のデータセットを作成できます。
関連論文リスト
- PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models [41.23359540842301]
PoseDreamerは,3Dメッシュアノテーションを備えた合成データセットを生成する,新たなパイプラインだ。
我々は50万以上の高品質な合成サンプルを生成し、画質の指標を76%改善した。
論文 参考訳(メタデータ) (2026-03-30T17:59:18Z) - DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - Unpaired Deblurring via Decoupled Diffusion Model [55.21345354747609]
UID-Diffは,未知領域における劣化性能の向上を目的とした生成拡散モデルである。
構造的特徴とぼかしパターン抽出器を別々に用いて, 抽出した特徴は, 合成データに対する教師付きデブロアリングタスクと教師なしのぼかし転送タスクに使用される。
実世界のデータセットの実験では、UID-Diffが既存の最先端の手法よりも、ぼやけた除去と構造保存に優れていることが示されている。
論文 参考訳(メタデータ) (2025-02-03T17:00:40Z) - GS-Blur: A 3D Scene-Based Dataset for Realistic Image Deblurring [50.72230109855628]
本稿では,新しい手法を用いて合成されたリアルなぼやけた画像のデータセットであるGS-Blurを提案する。
まず,3Dガウス・スプレイティング(3DGS)を用いて多視点画像から3Dシーンを再構成し,ランダムに生成された運動軌跡に沿ってカメラビューを移動させてぼやけた画像を描画する。
GS-Blurの再構築に様々なカメラトラジェクトリを採用することで、我々のデータセットは現実的で多様な種類のぼかしを含み、現実世界のぼかしをうまく一般化する大規模なデータセットを提供する。
論文 参考訳(メタデータ) (2024-10-31T06:17:16Z) - Diffusion Models are Efficient Data Generators for Human Mesh Recovery [55.37787289869703]
生成モデルにより生成された合成データはCGレンダリングデータと相補的であることを示す。
我々はHumanWildと呼ばれる最近の拡散モデルに基づく効率的なデータ生成パイプラインを提案する。
われわれの研究は、人間の3Dリカバリを現場に拡大するための道を開くかもしれない。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Light Field Diffusion for Single-View Novel View Synthesis [32.59286750410843]
NVS(Single-view novel view synthesis)は、コンピュータビジョンにおいて重要であるが困難である。
NVSの最近の進歩は、高忠実度画像を生成するのに優れた能力として、Denoising Diffusion Probabilistic Models (DDPMs)を活用している。
光電界拡散(LFD)は,従来のカメラポーズ行列への依存を超越した,条件拡散に基づく新しいアプローチである。
論文 参考訳(メタデータ) (2023-09-20T03:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。