論文の概要: TanDiT: Tangent-Plane Diffusion Transformer for High-Quality 360° Panorama Generation
- arxiv url: http://arxiv.org/abs/2506.21681v1
- Date: Thu, 26 Jun 2025 18:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.963655
- Title: TanDiT: Tangent-Plane Diffusion Transformer for High-Quality 360° Panorama Generation
- Title(参考訳): TanDiT:高品質360°パノラマ発生のためのタンジェント平板拡散変圧器
- Authors: Hakan Çapuk, Andrew Bond, Muhammed Burak Kızıl, Emir Göçen, Erkut Erdem, Aykut Erdem,
- Abstract要約: TanDiTはパノラマシーンを合成する手法で、360$circ$ビュー全体をカバーする接地平面画像の格子を生成する。
また,パノラマ画像の画質を正確に評価するために,TangentISとTangentFIDの2つの専門指標を示す。
- 参考スコア(独自算出の注目度): 12.480249699450535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in image generation have led to remarkable improvements in synthesizing perspective images. However, these models still struggle with panoramic image generation due to unique challenges, including varying levels of geometric distortion and the requirement for seamless loop-consistency. To address these issues while leveraging the strengths of the existing models, we introduce TanDiT, a method that synthesizes panoramic scenes by generating grids of tangent-plane images covering the entire 360$^\circ$ view. Unlike previous methods relying on multiple diffusion branches, TanDiT utilizes a unified diffusion model trained to produce these tangent-plane images simultaneously within a single denoising iteration. Furthermore, we propose a model-agnostic post-processing step specifically designed to enhance global coherence across the generated panoramas. To accurately assess panoramic image quality, we also present two specialized metrics, TangentIS and TangentFID, and provide a comprehensive benchmark comprising captioned panoramic datasets and standardized evaluation scripts. Extensive experiments demonstrate that our method generalizes effectively beyond its training data, robustly interprets detailed and complex text prompts, and seamlessly integrates with various generative models to yield high-quality, diverse panoramic images.
- Abstract(参考訳): 画像生成の最近の進歩は、パースペクティブ画像の合成において顕著な改善をもたらした。
しかし、これらのモデルは、幾何歪みのレベルやシームレスなループ一貫性の要求など、ユニークな課題のために、パノラマ画像生成に苦慮している。
既存のモデルの強みを活用しつつこれらの課題に対処するため,360$^\circ$ビュー全体をカバーする接地平面画像の格子を生成することでパノラマシーンを合成するTanDiTを導入する。
従来の複数の拡散枝に依存していた手法とは異なり、TanDiTは単一の復調反復でこれらの接面画像を同時に生成するように訓練された統一拡散モデルを使用する。
さらに,生成したパノラマのグローバルコヒーレンスを高めるために,モデルに依存しない後処理ステップを提案する。
また,パノラマ画像の品質を正確に評価するために,TangentISとTangentFIDという2つの専門指標と,キャプション付きパノラマデータセットと標準化された評価スクリプトからなる総合ベンチマークを提案する。
大規模な実験により,本手法はトレーニングデータを超えて効果的に一般化し,詳細かつ複雑なテキストプロンプトを頑健に解釈し,様々な生成モデルとシームレスに統合し,高品質で多様なパノラマ画像を生成することを示した。
関連論文リスト
- Conditional Panoramic Image Generation via Masked Autoregressive Modeling [35.624070746282186]
本稿では,これらの課題に対処するために,マスク付き自己回帰モデルを活用した統合フレームワークパノラマ自動回帰モデル(PAR)を提案する。
既存の生成モデルに固有の不連続性に対処するため,空間コヒーレンスを高めるために円パディングを導入する。
実験では、テキスト・ツー・イメージ生成とパノラマ・アパインティング・タスクの競争性能を示す。
論文 参考訳(メタデータ) (2025-05-22T16:20:12Z) - CubeDiff: Repurposing Diffusion-Based Image Models for Panorama Generation [59.257513664564996]
テキストプロンプトや画像から360度パノラマを生成する新しい手法を提案する。
我々は多視点拡散モデルを用いて立方体の6つの面を合成する。
本モデルでは,テキストのきめ細かい制御,高解像度パノラマ画像の生成,トレーニングセットを越えた一般化を実現している。
論文 参考訳(メタデータ) (2025-01-28T18:59:49Z) - Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation [12.588962705218103]
本稿では,パノラマ画像生成フレームワークを複数の解像度レベルまで拡張する最適化フレームワークであるMulti-Scale Diffusion(MSD)を紹介する。
本手法は勾配降下法を利用して低解像度画像の構造情報を高解像度出力に組み込む。
論文 参考訳(メタデータ) (2024-10-24T15:18:51Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。
視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。
我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文 参考訳(メタデータ) (2022-10-10T09:43:26Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。