論文の概要: PanoMixSwap Panorama Mixing via Structural Swapping for Indoor Scene
Understanding
- arxiv url: http://arxiv.org/abs/2309.09514v1
- Date: Mon, 18 Sep 2023 06:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:51:36.559360
- Title: PanoMixSwap Panorama Mixing via Structural Swapping for Indoor Scene
Understanding
- Title(参考訳): 屋内シーン理解のための構造交換によるパノミックススワップパノラマ混合
- Authors: Yu-Cheng Hsieh, Cheng Sun, Suraj Dengale, Min Sun
- Abstract要約: PanoMixSwapは、室内パノラマ画像用に特別に設計された新しいデータ拡張技術である。
それぞれのパノラマ画像を,背景スタイル,前景家具,室内レイアウトといった構成部品に分解する。
我々は,この3つの部分を1つの画像から前景家具,もう1つの画像から背景スタイル,そして3番目の画像から部屋構造など,3つの異なる画像から混合して拡張画像を生成する。
- 参考スコア(独自算出の注目度): 14.489840196199882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The volume and diversity of training data are critical for modern deep
learningbased methods. Compared to the massive amount of labeled perspective
images, 360 panoramic images fall short in both volume and diversity. In this
paper, we propose PanoMixSwap, a novel data augmentation technique specifically
designed for indoor panoramic images. PanoMixSwap explicitly mixes various
background styles, foreground furniture, and room layouts from the existing
indoor panorama datasets and generates a diverse set of new panoramic images to
enrich the datasets. We first decompose each panoramic image into its
constituent parts: background style, foreground furniture, and room layout.
Then, we generate an augmented image by mixing these three parts from three
different images, such as the foreground furniture from one image, the
background style from another image, and the room structure from the third
image. Our method yields high diversity since there is a cubical increase in
image combinations. We also evaluate the effectiveness of PanoMixSwap on two
indoor scene understanding tasks: semantic segmentation and layout estimation.
Our experiments demonstrate that state-of-the-art methods trained with
PanoMixSwap outperform their original setting on both tasks consistently.
- Abstract(参考訳): 訓練データの量と多様性は、現代の深層学習手法にとって重要である。
ラベル付き視点画像と比較すると、360パノラマ画像は体積と多様性の両方で不足している。
本稿では,室内パノラマ画像に特化して設計された新しいデータ拡張技術であるPanoMixSwapを提案する。
PanoMixSwapは、既存の屋内パノラマデータセットからさまざまな背景スタイル、前景家具、部屋レイアウトを明示的に混合し、データセットを豊かにするさまざまなパノラマ画像を生成する。
まず,各パノラマ画像から背景スタイル,前景家具,室内レイアウトなどを構成する部分に分割する。
そして、これら3つの部分を1つの画像から前景家具、別の画像から背景スタイル、そして3番目の画像から部屋構造といった3つの異なる画像から混合して拡張画像を生成する。
画像の組み合わせが3次的に増加するため,本手法は高い多様性をもたらす。
また,屋内シーン理解におけるPanoMixSwapの有効性を,セマンティックセグメンテーションとレイアウト推定の2つで評価した。
実験では,panomixswapでトレーニングされた最先端の手法が,両タスクの本来の設定を一貫して上回ることを実証した。
関連論文リスト
- DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - PanoGen: Text-Conditioned Panoramic Environment Generation for
Vision-and-Language Navigation [96.8435716885159]
VLN(Vision-and-Language Navigation)は、エージェントが3D環境をナビゲートするために言語命令に従う必要がある。
VLNの主な課題のひとつは、トレーニング環境の可用性が限定されていることだ。
パノジェネレーション(PanoGen)は、テキストに条件付けされた多様なパノラマ環境を無限に生成できる生成方法である。
論文 参考訳(メタデータ) (2023-05-30T16:39:54Z) - PanoContext-Former: Panoramic Total Scene Understanding with a
Transformer [37.51637352106841]
パノラマ画像は、周囲の環境についてより深く理解し、より総合的な認識を可能にする。
本稿では,室内環境の総合的理解に先立って深度を用いた新しい手法を提案する。
さらに,写真リアリスティックパノラマ,高忠実度深度画像,正確にアノテートされた部屋レイアウト,配向オブジェクト境界ボックスや形状など,シーン理解のための実世界のデータセットを導入する。
論文 参考訳(メタデータ) (2023-05-21T16:20:57Z) - PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-12-23T05:37:11Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Scene Image Representation by Foreground, Background and Hybrid Features [17.754713956659188]
本研究では,シーンイメージを表現するために,前景と背景機能に加えてハイブリッド機能を利用することを提案する。
本手法は最先端の分類性能を実現する。
論文 参考訳(メタデータ) (2020-06-05T01:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。