論文の概要: MVRackLay: Monocular Multi-View Layout Estimation for Warehouse Racks
and Shelves
- arxiv url: http://arxiv.org/abs/2211.16882v1
- Date: Wed, 30 Nov 2022 10:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 18:02:03.682191
- Title: MVRackLay: Monocular Multi-View Layout Estimation for Warehouse Racks
and Shelves
- Title(参考訳): MVRackLay: 倉庫ラックと棚の単眼マルチビューレイアウト推定
- Authors: Pranjali Pathre, Anurag Sahu, Ashwin Rao, Avinash Prabhu, Meher
Shashwat Nigam, Tanvi Karandikar, Harit Pandya, and K. Madhava Krishna
- Abstract要約: MVRackLayは、ラック内の棚のレイアウトに対応する多層レイアウトを推定する。
最小限の努力で、そのような出力は棚の上のラック、棚、オブジェクトの3Dレンダリングに変換される。
MVRackLayは、平均IoUとmAPのメトリクスで定量化され、レイアウト精度において、単一ビューのRackLayよりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 8.845291721126825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose and showcase, for the first time, monocular
multi-view layout estimation for warehouse racks and shelves. Unlike typical
layout estimation methods, MVRackLay estimates multi-layered layouts, wherein
each layer corresponds to the layout of a shelf within a rack. Given a sequence
of images of a warehouse scene, a dual-headed Convolutional-LSTM architecture
outputs segmented racks, the front and the top view layout of each shelf within
a rack. With minimal effort, such an output is transformed into a 3D rendering
of all racks, shelves and objects on the shelves, giving an accurate 3D
depiction of the entire warehouse scene in terms of racks, shelves and the
number of objects on each shelf. MVRackLay generalizes to a diverse set of
warehouse scenes with varying number of objects on each shelf, number of
shelves and in the presence of other such racks in the background. Further,
MVRackLay shows superior performance vis-a-vis its single view counterpart,
RackLay, in layout accuracy, quantized in terms of the mean IoU and mAP
metrics. We also showcase a multi-view stitching of the 3D layouts resulting in
a representation of the warehouse scene with respect to a global reference
frame akin to a rendering of the scene from a SLAM pipeline. To the best of our
knowledge, this is the first such work to portray a 3D rendering of a warehouse
scene in terms of its semantic components - Racks, Shelves and Objects - all
from a single monocular camera.
- Abstract(参考訳): 本稿では,倉庫ラックと棚の単眼的多面的レイアウト推定を初めて提案し,実演する。
典型的なレイアウト推定方法とは異なり、MVRackLayはラック内の棚のレイアウトに対応する多層レイアウトを推定する。
倉庫のシーンの一連の画像が与えられた場合、デュアルヘッドのConvolutional-LSTMアーキテクチャはラック内の各棚のセグメント化されたラック、フロントおよびトップビューレイアウトを出力する。
最小限の努力で、そのような出力は棚の上のラック、棚、オブジェクトの3Dレンダリングに変換され、ラック、棚、そして各棚のオブジェクトの数の観点から、倉庫全体の正確な3D描写が提供される。
MVRackLayは、各棚にさまざまな数のオブジェクト、棚の数、背景に他のラックがある様々な倉庫シーンに一般化する。
さらに、MVRackLayは、平均IoUとmAPのメトリクスで定量化され、レイアウト精度において、単一ビューのRackLayよりも優れたパフォーマンスを示している。
また,スラムパイプラインからのシーンのレンダリングに類似したグローバル参照フレームに関して,倉庫シーンを表現できるような3dレイアウトのマルチビュースタイピングも紹介する。
私たちの知る限りでは、これは倉庫のシーンの3dレンダリングを、単一の単眼カメラから、その意味的なコンポーネント(ラック、棚、オブジェクト)で表現した最初の作品です。
関連論文リスト
- 3DFIRES: Few Image 3D REconstruction for Scenes with Hidden Surface [8.824340350342512]
3DFIRESは、ポーズ画像からシーンレベルの3D再構成を行う新しいシステムである。
単一視点再構成法の有効性を1つの入力で示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:50Z) - Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal
Rearrangement [49.888011242939385]
本研究では,シーン内のオブジェクトを並べ替えて,所望のオブジェクトとシーンの配置関係を実現するシステムを提案する。
パイプラインは、新しいジオメトリ、ポーズ、シーンとオブジェクトのレイアウトに一般化される。
論文 参考訳(メタデータ) (2023-07-10T17:56:06Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Monocular Spherical Depth Estimation with Explicitly Connected Weak
Layout Cues [27.15511982413305]
幾何的視覚(360V)データセットを生成し、複数のモジュラリティ、多視点ステレオデータ、そして、自動的に弱レイアウトキューを生成する。
我々は、深さに基づくレイアウトの再構築とレイアウトに基づく深さの注意に頼り、両方のタスクにまたがるパフォーマンスの向上を示す。
360度カメラで部屋をスキャンすることで、ファクシブルで素早く3Dスキャンする機会が生まれる。
論文 参考訳(メタデータ) (2022-06-22T20:10:45Z) - 3D Instance Segmentation of MVS Buildings [5.2517244720510305]
本稿では,多視点ステレオ(MVS)都市シーンから3次元建物をセグメント化するための新しい枠組みを提案する。
この研究の重点は、大型で不正確な3D表面モデルに取り付けられたとしても、3Dビルディングインスタンスを検出し、セグメンテーションすることにある。
論文 参考訳(メタデータ) (2021-12-18T11:12:38Z) - MVLayoutNet:3D layout reconstruction with multi-view panoramas [12.981269280023469]
MVNetは、マルチビューパノラマから総合的な3D再構成のためのエンドツーエンドネットワークである。
我々はレイアウトモジュールを共同でトレーニングし、初期レイアウトと新しいMVSモジュールを作成し、正確なレイアウト形状を得る。
本手法は,シーン全体の再構築を可能にする整合的なレイアウト形状を導出する。
論文 参考訳(メタデータ) (2021-12-12T03:04:32Z) - RackLay: Multi-Layer Layout Estimation for Warehouse Racks [17.937062635570268]
本稿では,単一の画像からリアルタイム棚配置推定を行うディープニューラルネットワークracklayを提案する。
racklayは、オブジェクトがポピュレートされたラック内の各棚のトップビューとフロントビューのレイアウトを見積もっている。
また、トップビューとフロントビューの融合により、考慮されたラックの計量自由空間推定などの3D推論アプリケーションを可能にすることも示しています。
論文 参考訳(メタデータ) (2021-03-16T16:22:31Z) - Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。
まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。
粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文 参考訳(メタデータ) (2021-02-11T18:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。