論文の概要: Spherical Dense Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2502.12691v1
- Date: Tue, 18 Feb 2025 09:51:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:08.891641
- Title: Spherical Dense Text-to-Image Synthesis
- Title(参考訳): 球状高密度テキスト・画像合成
- Authors: Timon Winter, Stanislav Frolov, Brian Bernhard Moser, Andreas Dengel,
- Abstract要約: トレーニング不要なDT2Iアプローチを微調整パノラマモデルに統合することにより、SDT2I(Spherical dense text-to-image)を実現することができる。
我々は,Multiform StitchDiffusion(MSTD)とMultiplePanFusion(MPF)を,StitchDiffusionとPanFusionに統合して提案する。
以上の結果から,MSTDは画像品質,プロンプト,レイアウトの順守においてMPFよりも優れていた。
- 参考スコア(独自算出の注目度): 5.33292751200918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in text-to-image (T2I) have improved synthesis results, but challenges remain in layout control and generating omnidirectional panoramic images. Dense T2I (DT2I) and spherical T2I (ST2I) models address these issues, but so far no unified approach exists. Trivial approaches, like prompting a DT2I model to generate panoramas can not generate proper spherical distortions and seamless transitions at the borders. Our work shows that spherical dense text-to-image (SDT2I) can be achieved by integrating training-free DT2I approaches into finetuned panorama models. Specifically, we propose MultiStitchDiffusion (MSTD) and MultiPanFusion (MPF) by integrating MultiDiffusion into StitchDiffusion and PanFusion, respectively. Since no benchmark for SDT2I exists, we further construct Dense-Synthetic-View (DSynView), a new synthetic dataset containing spherical layouts to evaluate our models. Our results show that MSTD outperforms MPF across image quality as well as prompt- and layout adherence. MultiPanFusion generates more diverse images but struggles to synthesize flawless foreground objects. We propose bootstrap-coupling and turning off equirectangular perspective-projection attention in the foreground as an improvement of MPF.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)の最近の進歩は、合成結果が改善されているが、レイアウト制御や全方位パノラマ画像の生成には課題が残っている。
Dense T2I (DT2I) と spherical T2I (ST2I) はこれらの問題に対処するが、今のところ統一的なアプローチは存在しない。
DT2Iモデルにパノラマを生成するように促すことのようなトライヴィアルアプローチは、境界における適切な球面歪みやシームレスな遷移を生じさせない。
本研究は,訓練不要なDT2Iアプローチを微調整パノラマモデルに統合することにより,SDT2I(Spherical dense text-to-image)が実現可能であることを示す。
具体的には,Multiform StitchDiffusion (MSTD) とMultiplePanFusion (MPF) を,それぞれStitchDiffusion とPanFusion に統合して提案する。
SDT2Iのベンチマークは存在しないので、我々はさらにDense-Synthetic-View(DSynView)を構築します。
以上の結果から,MSTDは画像品質,プロンプト,レイアウトの順守においてMPFよりも優れていた。
MultiPanFusionはより多様な画像を生成するが、欠陥のない前景のオブジェクトを合成するのに苦労している。
本稿では,MPFの改良を目的としたブートストラップ結合と,前景における正方形視線投影注意のオフオフを提案する。
関連論文リスト
- FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - SphereFusion: Efficient Panorama Depth Estimation via Gated Fusion [21.97835451388508]
提案するSphereFusionは,様々なプロジェクション手法の強みを組み合わせたエンドツーエンドフレームワークである。
具体的には、SphereFusionは2次元画像畳み込みとメッシュ演算を使用して、同形および球面投影領域のパノラマ画像から2種類の特徴を抽出する。
SphereFusionは,512$times$1024パノラマ画像上で17msで高速な推論速度を示しながら,他の最先端手法と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2025-02-09T11:36:45Z) - SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。
最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。
両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:52:03Z) - GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - IterInv: Iterative Inversion for Pixel-Level T2I Models [16.230193725587807]
DDIMインバージョンは、潜在拡散モデル(LDM)に根ざした一般的なプラクティスである
遅延空間で動作する大規模な事前訓練されたT2Iモデルは、オートエンコーダ機構を備えた最初の圧縮段階により詳細が失われる。
我々は,このカテゴリのT2Iモデルのイテレーティブ・インバージョン(IterInv)技術を開発し,オープンソースのDeepFloyd-IFモデルを用いてIterInvを検証する。
論文 参考訳(メタデータ) (2023-10-30T13:47:46Z) - Customizing 360-Degree Panoramas through Text-to-Image Diffusion Models [38.70079108858637]
本稿では,T2I拡散モデルを用いた360度パノラマのカスタマイズに焦点を当てたアプローチを提案する。
これを実現するために、タスク用に特別に設計されたペア画像テキストデータセットをキュレートし、LoRAで事前学習したT2I拡散モデルを微調整する。
本稿では,合成画像の左端と右端の連続性を確保するためのStitchDiffusion法を提案する。
論文 参考訳(メタデータ) (2023-10-28T22:57:24Z) - SingleInsert: Inserting New Concepts from a Single Image into
Text-to-Image Models for Flexible Editing [59.3017821001455]
SingleInsert(シングルインサート)は、イメージ・トゥ・テキスト(I2T)のインバージョン手法であり、同じ概念を含む単一のソースイメージを持つ。
本研究では,SingleInsertという,シングルイメージI2Tインバージョンのためのシンプルで効果的なベースラインを提案する。
提案手法により、SingleInsertは、フレキシブルな編集を可能にしながら、高い視覚的忠実度でシングルコンセプト生成に優れる。
論文 参考訳(メタデータ) (2023-10-12T07:40:39Z) - MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer [158.06850125920923]
拡散確率モデル(DPM)は、画像内の対象部分間の関係を学習する文脈推論能力に欠けることが多い。
画像中のオブジェクトの意味部分間の文脈的関係学習能力を高めるマスク潜在モデリング手法を提案する。
実験の結果、MDTv2は画像合成性能に優れており、例えば、新しいSOTA FIDスコアはImageNetデータセットで1.58であり、従来のSOTA DiTよりも10倍以上高速であることがわかった。
論文 参考訳(メタデータ) (2023-03-25T07:47:21Z) - HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。
視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。
我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文 参考訳(メタデータ) (2022-10-10T09:43:26Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - UniFuse: Unidirectional Fusion for 360$^{\circ}$ Panorama Depth
Estimation [11.680475784102308]
本稿では,2つのプロジェクションから特徴を融合する新しいフレームワークを提案する。
提案した融合戦略とモジュールの有効性を実験により検証し、4つの一般的なデータセット上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-02-06T10:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。