論文の概要: Preserving Product Fidelity in Large Scale Image Recontextualization with Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.08729v1
- Date: Tue, 11 Mar 2025 01:24:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:49.520531
- Title: Preserving Product Fidelity in Large Scale Image Recontextualization with Diffusion Models
- Title(参考訳): 拡散モデルを用いた大規模画像再構成における製品忠実さの保存
- Authors: Ishaan Malhi, Praneet Dutta, Ellie Talius, Sally Ma, Brendan Driscoll, Krista Holden, Garima Pruthi, Arunachalam Narayanaswamy,
- Abstract要約: 本稿では,テキスト・ツー・イメージ拡散モデルと新しいデータ拡張パイプラインを用いた高忠実度製品画像再構成のためのフレームワークを提案する。
本手法は,生成画像の品質と多様性を,製品表現を分離し,モデルによる製品特性の理解を深めることによって改善する。
- 参考スコア(独自算出の注目度): 1.8606057023042066
- License:
- Abstract: We present a framework for high-fidelity product image recontextualization using text-to-image diffusion models and a novel data augmentation pipeline. This pipeline leverages image-to-video diffusion, in/outpainting & negatives to create synthetic training data, addressing limitations of real-world data collection for this task. Our method improves the quality and diversity of generated images by disentangling product representations and enhancing the model's understanding of product characteristics. Evaluation on the ABO dataset and a private product dataset, using automated metrics and human assessment, demonstrates the effectiveness of our framework in generating realistic and compelling product visualizations, with implications for applications such as e-commerce and virtual product showcasing.
- Abstract(参考訳): 本稿では,テキスト・ツー・イメージ拡散モデルと新しいデータ拡張パイプラインを用いた高忠実度製品画像再構成のためのフレームワークを提案する。
このパイプラインは、画像間の拡散、イン/アウトパインティング、負の処理を活用して、このタスクの現実世界のデータ収集の制限に対処する合成トレーニングデータを生成する。
本手法は,生成画像の品質と多様性を,製品表現を分離し,モデルによる製品特性の理解を深めることによって改善する。
自動メトリクスとヒューマンアセスメントを用いたABOデータセットとプライベート製品データセットの評価は、現実的で魅力的な製品ビジュアライゼーションを生成する上で、我々のフレームワークの有効性を示し、eコマースや仮想製品ショーケースのようなアプリケーションに影響を及ぼす。
関連論文リスト
- Augmented Conditioning Is Enough For Effective Training Image Generation [11.60839452103417]
実画像の生成プロセスの条件付けとテキストのプロンプトにより、下流トレーニングに有効な合成データセットとして機能する世代を生成することが判明した。
我々は,5つの確立された長尾画像と少数ショット画像の分類ベンチマークにおいて,拡張条件を検証した。
論文 参考訳(メタデータ) (2025-02-06T19:57:33Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Dataset Augmentation by Mixing Visual Concepts [3.5420134832331334]
本稿では,事前学習した拡散モデルの微調整によるデータセット拡張手法を提案する。
我々は、拡散モデルに実際の画像と新しいテキスト埋め込みを条件付けすることで適応する。
提案手法は,ベンチマーク分類タスクにおける最先端の強化手法より優れている。
論文 参考訳(メタデータ) (2024-12-19T19:42:22Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Generative Adversarial Transformers [13.633811200719627]
本稿では,新規かつ効率的な変換器であるGANsformerを紹介し,視覚生成モデリングの課題について検討する。
ネットワークは、線形効率の計算を維持しながら、画像間の長距離相互作用を可能にする二部構造を用いる。
高速な学習とより良いデータ効率を享受しながら、画像品質と多様性の観点から最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-01T18:54:04Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。