論文の概要: JoPano: Unified Panorama Generation via Joint Modeling
- arxiv url: http://arxiv.org/abs/2512.06885v1
- Date: Sun, 07 Dec 2025 15:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.575188
- Title: JoPano: Unified Panorama Generation via Joint Modeling
- Title(参考訳): JoPano: ジョイントモデリングによる統一パノラマ生成
- Authors: Wancheng Feng, Chen An, Zhenliang He, Meina Kan, Shiguang Shan, Lukun Wang,
- Abstract要約: 本稿では,2つのコアタスクをDiTモデル内に統一する共同顔パノラマ(JoPano)生成手法を提案する。
テキスト・ツー・パノラマ・ビュー・トゥ・パノラマ生成タスクにおいて,JoPanoは高品質なパノラマを生成することができることを示す。
- 参考スコア(独自算出の注目度): 51.392082596383034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panorama generation has recently attracted growing interest in the research community, with two core tasks, text-to-panorama and view-to-panorama generation. However, existing methods still face two major challenges: their U-Net-based architectures constrain the visual quality of the generated panoramas, and they usually treat the two core tasks independently, which leads to modeling redundancy and inefficiency. To overcome these challenges, we propose a joint-face panorama (JoPano) generation approach that unifies the two core tasks within a DiT-based model. To transfer the rich generative capabilities of existing DiT backbones learned from natural images to the panorama domain, we propose a Joint-Face Adapter built on the cubemap representation of panoramas, which enables a pretrained DiT to jointly model and generate different views of a panorama. We further apply Poisson Blending to reduce seam inconsistencies that often appear at the boundaries between cube faces. Correspondingly, we introduce Seam-SSIM and Seam-Sobel metrics to quantitatively evaluate the seam consistency. Moreover, we propose a condition switching mechanism that unifies text-to-panorama and view-to-panorama tasks within a single model. Comprehensive experiments show that JoPano can generate high-quality panoramas for both text-to-panorama and view-to-panorama generation tasks, achieving state-of-the-art performance on FID, CLIP-FID, IS, and CLIP-Score metrics.
- Abstract(参考訳): パノラマ世代は、最近、テキスト・トゥ・パノラマ世代とビュー・トゥ・パノラマ世代という2つの中核的なタスクを持つ研究コミュニティへの関心が高まっている。
U-Netベースのアーキテクチャは生成されたパノラマの視覚的品質を制限し、通常は2つのコアタスクを独立して扱い、冗長性と非効率性をモデル化する。
これらの課題を克服するために、我々は2つのコアタスクをDiTベースモデルに統合する、共同顔パノラマ(JoPano)生成手法を提案する。
自然画像から学習した既存のDiTバックボーンの豊かな生成能力をパノラマ領域に転送するために,パノラマの立方体表現上に構築されたジョイントフェイスアダプタを提案する。
さらに、ポアソンブレンディングを用いて、立方体面の境界にしばしば現れるシームの不整合を低減する。
それに対応して,Seam-SSIMとSeam-Sobelのメトリクスを導入して,Seamの一貫性を定量的に評価する。
さらに,テキスト・トゥ・パノラマタスクとビュー・トゥ・パノラマタスクを単一のモデルで統合する条件切替機構を提案する。
総合的な実験によると、JoPanoはテキスト・トゥ・パノラマとビュー・トゥ・パノラマの生成タスクの両方で高品質なパノラマを生成し、FID、CLIP-FID、IS、CLIP-Scoreメトリクス上で最先端のパフォーマンスを達成することができる。
関連論文リスト
- One Flight Over the Gap: A Survey from Perspective to Panoramic Vision [117.80970697177025]
本研究は,最近のパノラマ視覚技術,特にパノラマ・パノラマ・パノラマ適応についてレビューする。
最初にパノラマ画像パイプラインと投影法を再検討し、構造的格差を分析するのに必要な事前知識を構築した。
これに基づいて、300以上の研究論文から得られた20以上の代表的タスクを2次元でカバーする。
論文 参考訳(メタデータ) (2025-09-04T17:59:10Z) - Conditional Panoramic Image Generation via Masked Autoregressive Modeling [35.624070746282186]
本稿では,これらの課題に対処するために,マスク付き自己回帰モデルを活用した統合フレームワークパノラマ自動回帰モデル(PAR)を提案する。
既存の生成モデルに固有の不連続性に対処するため,空間コヒーレンスを高めるために円パディングを導入する。
実験では、テキスト・ツー・イメージ生成とパノラマ・アパインティング・タスクの競争性能を示す。
論文 参考訳(メタデータ) (2025-05-22T16:20:12Z) - Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models [52.84391764467939]
統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。
複雑な画像生成の課題に対処するために、思考の連鎖(CoT)を統一生成モデルに導入する。
実験により、FoXは様々なT2Iベンチマークで既存の統一モデルよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs [10.970010947605289]
パノラマ画像生成(PIG)は任意の長さのコヒーレントな画像を作成することを目的としている。
パノラマ(PanoLlama)は,パノラマ生成と自己回帰パラダイムを融合した,永続的で一貫性のあるパノラマ生成を実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2024-11-24T15:06:57Z) - DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - PanoSwin: a Pano-style Swin Transformer for Panorama Understanding [15.115868803355081]
等方射影(ERP)は境界の不連続性と空間歪みを含む。
我々はパノラマ表現をERPで学習するためにPanoSwinを提案する。
各種パノラマ作業における最先端技術に対する実験を行う。
論文 参考訳(メタデータ) (2023-08-28T17:30:14Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。