論文の概要: Spherical Dense Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2502.12691v2
- Date: Wed, 19 Feb 2025 13:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:53.909030
- Title: Spherical Dense Text-to-Image Synthesis
- Title(参考訳): 球状高密度テキスト・画像合成
- Authors: Timon Winter, Stanislav Frolov, Brian Bernhard Moser, Andreas Dengel,
- Abstract要約: トレーニング不要なDT2Iアプローチを微調整パノラマモデルに統合することにより、SDT2I(Spherical dense text-to-image)を実現することができる。
我々は,Multiform StitchDiffusion(MSTD)とMultiplePanFusion(MPF)を,StitchDiffusionとPanFusionに統合して提案する。
以上の結果から,MSTDは画像品質,プロンプト,レイアウトの順守においてMPFよりも優れていた。
- 参考スコア(独自算出の注目度): 5.33292751200918
- License:
- Abstract: Recent advancements in text-to-image (T2I) have improved synthesis results, but challenges remain in layout control and generating omnidirectional panoramic images. Dense T2I (DT2I) and spherical T2I (ST2I) models address these issues, but so far no unified approach exists. Trivial approaches, like prompting a DT2I model to generate panoramas can not generate proper spherical distortions and seamless transitions at the borders. Our work shows that spherical dense text-to-image (SDT2I) can be achieved by integrating training-free DT2I approaches into finetuned panorama models. Specifically, we propose MultiStitchDiffusion (MSTD) and MultiPanFusion (MPF) by integrating MultiDiffusion into StitchDiffusion and PanFusion, respectively. Since no benchmark for SDT2I exists, we further construct Dense-Synthetic-View (DSynView), a new synthetic dataset containing spherical layouts to evaluate our models. Our results show that MSTD outperforms MPF across image quality as well as prompt- and layout adherence. MultiPanFusion generates more diverse images but struggles to synthesize flawless foreground objects. We propose bootstrap-coupling and turning off equirectangular perspective-projection attention in the foreground as an improvement of MPF.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)の最近の進歩は、合成結果が改善されているが、レイアウト制御や全方位パノラマ画像の生成には課題が残っている。
Dense T2I (DT2I) と spherical T2I (ST2I) はこれらの問題に対処するが、今のところ統一的なアプローチは存在しない。
DT2Iモデルにパノラマを生成するように促すことのようなトライヴィアルアプローチは、境界における適切な球面歪みやシームレスな遷移を生じさせない。
本研究は,訓練不要なDT2Iアプローチを微調整パノラマモデルに統合することにより,SDT2I(Spherical dense text-to-image)が実現可能であることを示す。
具体的には,Multiform StitchDiffusion (MSTD) とMultiplePanFusion (MPF) を,それぞれStitchDiffusion とPanFusion に統合して提案する。
SDT2Iのベンチマークは存在しないので、我々はさらにDense-Synthetic-View(DSynView)を構築します。
以上の結果から,MSTDは画像品質,プロンプト,レイアウトの順守においてMPFよりも優れていた。
MultiPanFusionはより多様な画像を生成するが、欠陥のない前景のオブジェクトを合成するのに苦労している。
本稿では,MPFの改良を目的としたブートストラップ結合と,前景における正方形視線投影注意のオフオフを提案する。
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers [69.96398489841116]
フローベース大拡散変圧器(Flag-DiT)のLumina-T2X系について紹介する。
Flag-DiTは、画像、ビデオ、マルチビュー3Dオブジェクト、テキスト命令で条件付けられたオーディオクリップにノイズを変換するための統一されたフレームワークである。
これは、われわれのLumina-T2IモデルとLumina-T2Vモデルによる長い720pビデオで超高精細画像を作成するのに特に有益である。
論文 参考訳(メタデータ) (2024-05-09T17:35:16Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Customizing 360-Degree Panoramas through Text-to-Image Diffusion Models [38.70079108858637]
本稿では,T2I拡散モデルを用いた360度パノラマのカスタマイズに焦点を当てたアプローチを提案する。
これを実現するために、タスク用に特別に設計されたペア画像テキストデータセットをキュレートし、LoRAで事前学習したT2I拡散モデルを微調整する。
本稿では,合成画像の左端と右端の連続性を確保するためのStitchDiffusion法を提案する。
論文 参考訳(メタデータ) (2023-10-28T22:57:24Z) - Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation [73.48323921632506]
パノラマ的セマンティックセマンティックセグメンテーションは2つの重要な課題により未探索である。
まず、変形性パッチ埋め込み(DPE)と変形性(DMLPv2)モジュールを備えたパノラマセマンティックトランス4PASS+を改良したトランスフォーマーを提案する。
第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を用いた新しいデータセット(SynPASS)を作成します。
論文 参考訳(メタデータ) (2022-07-25T00:42:38Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - UniFuse: Unidirectional Fusion for 360$^{\circ}$ Panorama Depth
Estimation [11.680475784102308]
本稿では,2つのプロジェクションから特徴を融合する新しいフレームワークを提案する。
提案した融合戦略とモジュールの有効性を実験により検証し、4つの一般的なデータセット上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-02-06T10:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。