論文の概要: SE360: Semantic Edit in 360$^\circ$ Panoramas via Hierarchical Data Construction
- arxiv url: http://arxiv.org/abs/2512.19943v1
- Date: Tue, 23 Dec 2025 00:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.693843
- Title: SE360: Semantic Edit in 360$^\circ$ Panoramas via Hierarchical Data Construction
- Title(参考訳): SE360: 階層データ構築による360$^\circ$パノラマのセマンティック編集
- Authors: Haoyi Zhong, Fang-Lue Zhang, Andrew Chalmers, Taehyun Rhee,
- Abstract要約: SE360は、360$circ$ panoramasで複数条件のオブジェクトを編集するための新しいフレームワークである。
コアとなるのは,手作業による介入を伴わない,新たな粗大な自律データ生成パイプラインだ。
提案手法は,視覚的品質と意味的精度の両方において,既存の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.137976445056466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While instruction-based image editing is emerging, extending it to 360$^\circ$ panoramas introduces additional challenges. Existing methods often produce implausible results in both equirectangular projections (ERP) and perspective views. To address these limitations, we propose SE360, a novel framework for multi-condition guided object editing in 360$^\circ$ panoramas. At its core is a novel coarse-to-fine autonomous data generation pipeline without manual intervention. This pipeline leverages a Vision-Language Model (VLM) and adaptive projection adjustment for hierarchical analysis, ensuring the holistic segmentation of objects and their physical context. The resulting data pairs are both semantically meaningful and geometrically consistent, even when sourced from unlabeled panoramas. Furthermore, we introduce a cost-effective, two-stage data refinement strategy to improve data realism and mitigate model overfitting to erase artifacts. Based on the constructed dataset, we train a Transformer-based diffusion model to allow flexible object editing guided by text, mask, or reference image in 360$^\circ$ panoramas. Our experiments demonstrate that our method outperforms existing methods in both visual quality and semantic accuracy.
- Abstract(参考訳): 命令ベースの画像編集が登場しつつあるが、360$^\circ$ panoramasまで拡張することは、さらなる課題をもたらす。
既存の手法は、等角射影(ERP)と視点ビューの両方において、しばしば不可解な結果をもたらす。
このような制約に対処するため,360$^\circ$ panoramas で多条件ガイドオブジェクト編集を行う新しいフレームワーク SE360 を提案する。
コアとなるのは,手作業による介入を伴わない,新たな粗大な自律データ生成パイプラインだ。
このパイプラインは、視覚言語モデル(VLM)と階層解析のための適応予測調整を活用し、オブジェクトの全体的セグメンテーションとその物理的なコンテキストを保証する。
得られたデータペアは、ラベルのないパノラマからソースされたとしても、意味的に意味があり、幾何学的に一貫性がある。
さらに、データリアリズムを改善し、アーティファクトを除去するために過度に適合するモデルを改善するために、コスト効率のよい2段階データ精錬戦略を導入する。
構築したデータセットに基づいて、Transformerベースの拡散モデルをトレーニングし、テキスト、マスク、参照イメージを360$^\circ$ panoramasでガイドした柔軟なオブジェクト編集を可能にする。
提案手法は,視覚的品質と意味的精度の両方において,既存の手法よりも優れていることを示す。
関連論文リスト
- DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training [76.82789568988557]
DiT360は、パノラマ画像生成のための視点とパノラマデータを用いたハイブリッドトレーニングを行う、DiTベースのフレームワークである。
提案手法は,11の定量的指標間で境界の整合性と画像の忠実度を向上する。
論文 参考訳(メタデータ) (2025-10-13T17:59:15Z) - Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting [20.14129939772052]
自動運転のための最初のパノラマ生成法Percep360を提案する。
Percep360は、縫合されたパノラマデータに基づく制御信号によるパノラマデータのコヒーレントな生成を可能にする。
生成した画像の有効性を3つの視点から評価した。
論文 参考訳(メタデータ) (2025-07-09T16:01:41Z) - Leader360V: The Large-scale, Real-world 360 Video Dataset for Multi-task Learning in Diverse Environment [19.70383859926191]
Leader360Vは、インスタンスのセグメンテーションとトラッキングのための、最初の大規模なラベル付き実世界の360ビデオデータセットである。
私たちのデータセットは、屋内や都市環境から自然や動的な屋外のシーンまで、高いシーンの多様性を享受しています。
実験によると、Lead360Vは360度ビデオセグメンテーションとトラッキングのモデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-17T07:37:08Z) - DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360
Depth Estimation [59.11106101006008]
両射影融合と自己学習シナリオの組み合わせを検討するために,BiFuse++を提案する。
そこで我々は,BiFuseの性能向上のために,新たな融合モジュールとコントラスト対応測光損失を提案する。
論文 参考訳(メタデータ) (2022-09-07T06:24:21Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z) - A Fixation-based 360{\deg} Benchmark Dataset for Salient Object
Detection [21.314578493964333]
パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。
静止物体検出(SOD)は、実際のシーンを表すデータセットが欠如しているため、360度画像ではめったに探索されていない。
論文 参考訳(メタデータ) (2020-01-22T11:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。