論文の概要: uLayout: Unified Room Layout Estimation for Perspective and Panoramic Images
- arxiv url: http://arxiv.org/abs/2503.21562v1
- Date: Thu, 27 Mar 2025 14:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:26.579889
- Title: uLayout: Unified Room Layout Estimation for Perspective and Panoramic Images
- Title(参考訳): uLayout:パースペクティブとパノラマ画像のための統一ルームレイアウト推定
- Authors: Jonathan Lee, Bolivar Solarte, Chin-Hsuan Wu, Jin-Cheng Jhang, Fu-En Wang, Yi-Hsuan Tsai, Min Sun,
- Abstract要約: 両視点およびパノラマ画像から部屋配置を推定するための統一モデルであるUvolutionを提案する。
我々の解の鍵となる考え方は、両方の領域を等角射影に統一することである。
両ドメインに1つのエンドツーエンドモデルを示すのは,今回が初めてです。
- 参考スコア(独自算出の注目度): 29.336666024601545
- License:
- Abstract: We present uLayout, a unified model for estimating room layout geometries from both perspective and panoramic images, whereas traditional solutions require different model designs for each image type. The key idea of our solution is to unify both domains into the equirectangular projection, particularly, allocating perspective images into the most suitable latitude coordinate to effectively exploit both domains seamlessly. To address the Field-of-View (FoV) difference between the input domains, we design uLayout with a shared feature extractor with an extra 1D-Convolution layer to condition each domain input differently. This conditioning allows us to efficiently formulate a column-wise feature regression problem regardless of the FoV input. This simple yet effective approach achieves competitive performance with current state-of-the-art solutions and shows for the first time a single end-to-end model for both domains. Extensive experiments in the real-world datasets, LSUN, Matterport3D, PanoContext, and Stanford 2D-3D evidence the contribution of our approach. Code is available at https://github.com/JonathanLee112/uLayout.
- Abstract(参考訳): 本稿では,空間配置をパノラマ画像から推定する統一モデル uLayout を提案する。
我々のソリューションの鍵となる考え方は、両領域を等方射影に統一することであり、特に視点像を最も適した緯度座標に割り当て、両領域をシームレスに活用することである。
入力領域間のフィールド・オブ・ビュー(FoV)差に対処するため,各領域を異なる条件で入力するための1D-畳み込み層を持つ共有特徴抽出器を用いてuLayoutを設計する。
この条件付けにより、FoV入力によらず、カラムワイズ特徴回帰問題を効率的に定式化できる。
この単純で効果的なアプローチは、現在の最先端のソリューションと競合する性能を達成し、両ドメインの単一のエンドツーエンドモデルが初めて示す。
実世界のデータセット、LSUN、Matterport3D、PanoContext、Stanford 2D-3Dにおける大規模な実験は、我々のアプローチの寄与を証明している。
コードはhttps://github.com/JonathanLee112/uLayout.comから入手できる。
関連論文リスト
- CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation [78.21134311493303]
拡散モデルは、視覚的に魅力的であるだけでなく、芸術的品質の高い画像を生成する能力で認識されている。
従来の手法は主にUNetベースのモデル(SD1.5やSDXLなど)に重点を置いており、限られた努力でMM-DiT(Multimodal Diffusion Transformer)を探索している。
MM-DiTの利点を継承して、画像とテキストのモダリティを処理するために、別々の集合ネットワーク重みを用いる。
大規模なレイアウトデータセットであるLayoutSAMには、270万のイメージテキストペアと1070万のエンティティが含まれています。
論文 参考訳(メタデータ) (2024-12-05T04:09:47Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - ZoDi: Zero-Shot Domain Adaptation with Diffusion-Based Image Transfer [13.956618446530559]
本稿では,ZoDiと呼ばれる拡散モデルに基づくゼロショット領域適応手法を提案する。
まず,原画像の領域を対象領域に転送することで,対象画像の合成にオフ・ザ・シェルフ拡散モデルを用いる。
次に、元の表現でソース画像と合成画像の両方を用いてモデルを訓練し、ドメイン・ロバスト表現を学習する。
論文 参考訳(メタデータ) (2024-03-20T14:58:09Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - GPR-Net: Multi-view Layout Estimation via a Geometry-aware Panorama
Registration Network [44.06968418800436]
一対のパノラマからパノラマ登録とレイアウト推定を共同で学習する完全パノラマレイアウト推定フレームワークを提案する。
PSMNetに対する大きな改善は、新しいGeometry-aware Panorama Registration Network(GPR-Net)によるものである。
実験結果から,大規模な屋内パノラマデータセットZInDにおけるパノラマ登録とレイアウト推定の両面での最先端性能が得られた。
論文 参考訳(メタデータ) (2022-10-20T17:10:41Z) - Geometry Aligned Variational Transformer for Image-conditioned Layout
Generation [38.747175229902396]
画像中の様々なレイアウトを自動回帰的に生成するICVT(Image-Conditioned Variational Transformer)を提案する。
まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、一方、クロスアテンション機構は条件付き画像の視覚情報を融合するために使用される。
広告ポスターレイアウト設計データセットを大規模に構築し,微妙なレイアウトと鮮度マップアノテーションを付加する。
論文 参考訳(メタデータ) (2022-09-02T07:19:12Z) - Self-supervised 360$^{\circ}$ Room Layout Estimation [20.062713286961326]
ラベル付きデータを使わずにパノラマ的な部屋配置推定モデルを訓練するための,最初の自己教師方式を提案する。
弊社のアプローチでは、データ共有シナリオとアクティブラーニングにおける有望なソリューションも示しています。
論文 参考訳(メタデータ) (2022-03-30T04:58:07Z) - PIT: Position-Invariant Transform for Cross-FoV Domain Adaptation [53.428312630479816]
フィールド・オブ・ビュー(FoV)ギャップは、ソースとターゲットドメイン間の顕著なインスタンスの出現差を誘導する。
本研究では,異なる領域における画像の整合性を改善するために,textbfPosition-Invariant Transform (PIT)を提案する。
論文 参考訳(メタデータ) (2021-08-16T15:16:47Z) - UniFuse: Unidirectional Fusion for 360$^{\circ}$ Panorama Depth
Estimation [11.680475784102308]
本稿では,2つのプロジェクションから特徴を融合する新しいフレームワークを提案する。
提案した融合戦略とモジュールの有効性を実験により検証し、4つの一般的なデータセット上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-02-06T10:01:09Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。