論文の概要、ライセンス

# (参考訳) 単発cuboids:球面パノラマを用いた測地線に基づくエンドツーエンドマンハッタンアラインレイアウト推定 [全文訳有]

Single-Shot Cuboids: Geodesics-based End-to-end Manhattan Aligned Layout Estimation from Spherical Panoramas ( http://arxiv.org/abs/2102.03939v1 )

ライセンス: CC BY 4.0
Nikolaos Zioulis, Federico Alvarez, Dimitrios Zarpalas, Petros Daras(参考訳) レイアウト推定などのグローバルなシーン理解タスクは、広い視野、特に球面パノラマの恩恵を受けることができることが示されています。 近年、多くの進展が見られたが、以前のアプローチはすべて中間表現と後処理に依存してマンハッタンに整合した見積もりを生成する。 本稿では,全室レイアウトを単一ショットで推定する方法を示し,後処理の必要性を解消する。 私たちの仕事はマンハッタン整列アウトプットを直接推論する最初のものです。 これを達成するために、データ駆動モデルは直接座標回帰を利用して、エンドツーエンドで監視されます。 その結果、ホモグラフィに基づくマンハッタンアライメントモジュールに必要な条件を設定する擬似マンタン制約を明示的に追加することができる。 最後に,測地線ヒートマップと損失,球面領域における高品質キーポイント推定を容易にする質量計算の境界認識中心について紹介する。 私たちのモデルとコードはhttps://vcl3d.github .io/SingleShotCuboid s/で公開されています。

It has been shown that global scene understanding tasks like layout estimation can benefit from wider field of views, and specifically spherical panoramas. While much progress has been made recently, all previous approaches rely on intermediate representations and postprocessing to produce Manhattan-aligned estimates. In this work we show how to estimate full room layouts in a single-shot, eliminating the need for postprocessing. Our work is the first to directly infer Manhattan-aligned outputs. To achieve this, our data-driven model exploits direct coordinate regression and is supervised end-to-end. As a result, we can explicitly add quasi-Manhattan constraints, which set the necessary conditions for a homography-based Manhattan alignment module. Finally, we introduce the geodesic heatmaps and loss and a boundary-aware center of mass calculation that facilitate higher quality keypoint estimation in the spherical domain. Our models and code are publicly available at https://vcl3d.github .io/SingleShotCuboid s/.
公開日: Sun, 7 Feb 2021 22:52:59 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 b e F 9 1 2 0 2 b e F 9 0.85
] V C . ] V C。 0.79
s c [ 2 v 9 3 9 3 0 sc [ 2 v 9 3 9 3 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Single-Shot Cuboids: Geodesics-based End-to-end Manhattan Aligned Layout シングルショットcuboids:測地線に基づくエンドツーエンドのマンハッタンアライメントレイアウト 0.49
Estimation from Spherical Panoramas 球状パノラマからの推定 0.73
Nikolaos Zioulis Nikolaos Zioulis 0.85
Centre for Research and Technology Hellas 研究・技術ヘラスセンター 0.64
Universidad Polit´ecnica de Madrid マドリード大学政治学部 0.73
Federico Alvarez フェデリコ・アルヴァレス 0.50
Universidad Polit´ecnica de Madrid マドリード大学政治学部 0.73
fag@gatv.ssr.upm.es fag@gatv.ssr.upm.es 0.47
nzioulis@iti.gr nzioulis@iti.gr 0.78
Dimitrios Zarpalas Dimitrios Zarpalas 0.85
Petros Daras Centre for Research and Technology Hellas ペトロダラス 研究・技術ヘラスセンター 0.55
{zarpalas,daras}@iti.gr zarpalas,daras}@iti.gr 0.81
Abstract It has been shown that global scene understanding tasks like layout estimation can benefit from wider field of views, and specifically spherical panoramas. 概要 レイアウト推定などのグローバルなシーン理解タスクは、広い視野、特に球面パノラマの恩恵を受けることができることが示されています。 0.55
While much progress has been made recently, all previous approaches rely on intermediate representations and postprocessing to produce Manhattan-aligned estimates. 近年、多くの進展が見られたが、以前のアプローチはすべて中間表現と後処理に依存してマンハッタンに整合した見積もりを生成する。 0.56
In this work we show how to estimate full room layouts in a single-shot, eliminating the need for postprocessing. 本稿では,全室レイアウトを単一ショットで推定する方法を示し,後処理の必要性を解消する。 0.79
Our work is the first to directly infer Manhattan-aligned outputs. 私たちの仕事はマンハッタン整列アウトプットを直接推論する最初のものです。 0.58
To achieve this, our data-driven model exploits direct coordinate regression and is supervised end-to-end. これを達成するために、データ駆動モデルは直接座標回帰を利用して、エンドツーエンドで監視されます。 0.44
As a result, we can explicitly add quasi-Manhattan constraints, which set the necessary conditions for a homography-based Manhattan alignment module. その結果、ホモグラフィに基づくマンハッタンアライメントモジュールに必要な条件を設定する擬似マンタン制約を明示的に追加することができる。 0.74
Finally, we introduce the geodesic heatmaps and loss and a boundary-aware center of mass calculation that facilitate higher quality keypoint estimation in the spherical domain. 最後に,測地線ヒートマップと損失,球面領域における高品質キーポイント推定を容易にする質量計算の境界認識中心について紹介する。 0.69
Our models and code are publicly available at https://vcl3d.github .io/SingleShotCuboid s/. 私たちのモデルとコードはhttps://vcl3d.github .io/SingleShotCuboid s/で公開されています。 0.44
1. Introduction Modern hardware advances have commoditized spherical cameras1 which have evolved beyond elaborate optics and camera clusters. 1. はじめに 現代のハードウェアの進歩は、精巧な光学やカメラクラスタを超えて進化した球面カメラ1をコモディティ化した。 0.65
Affordable handheld 360o cameras are finding widespread use in various applications, with the more prominent ones being real-estate, interior design and virtual tours, with recently introduced datasets following the same trends. 拡張可能なハンドヘルド360oカメラは、さまざまなアプリケーションで広く使われており、より顕著なものは、不動産、インテリアデザイン、バーチャルツアー、そして最近導入されたデータセットである。 0.59
Realtor360 [60] contains panoramas acquired by a real-estate company, while Kujiale [28] and Structured3D [65] were rendered using a large corpus of realtor360 [60] は不動産会社に買収されたパノラマを含み、kujiale [28] と structured3d [65] は大きなコーパスを使用してレンダリングされた。 0.66
1We will be using the adjective terms spherical, omnidirectional and 1形容詞用語を球面・全方位・全方位で使います。 0.54
360o for cameras and images interchangeably. 360oでカメラと画像を交換できる。 0.66
Figure 1: From a single indoor scene panorama input, we estimate a Manhattan aligned cuboid of the room’s layout, in a single-shot. 図1:1つの屋内シーンパノラマ入力から、マンハッタンのアライメントされた部屋のレイアウトの立方体を1ショットで見積もる。 0.64
To achieve this, we rely on spherical coordinate localization using geodesic heatmaps. これを実現するために、測地熱マップを用いた球面座標の定位に依存する。 0.54
This explicit reasoning about the corner positions in the image, allows for the integration of vertical alignment constraints that drive a differentiable homography-based cuboid fitting module. 画像のコーナー位置に関するこの明確な推論は、差別化可能なホモグラフィーベースの立方体フィッティングモジュールを駆動する垂直アライメント制約の統合を可能にします。 0.76
computer-generated data from an interior design company. インテリアデザイン会社によるコンピュータ生成データ。 0.82
Further, datasets containing spherical panoramas like Matterport3D [3] and Stanford2D3D [1], were created using the Matterport camera, originally developed for virtual tours. さらに、Matterport3D[3]やStanford2D3D[1]のような球状パノラマを含むデータセットも、もともと仮想ツアー用に開発されたMatterportカメラを用いて作成した。
訳抜け防止モード: さらに、Matterport3D[3 ]やStanford2D3D[1 ]のような球状パノラマを含むデータセット。 Matterportカメラは、もともと仮想ツアー用に開発された。
0.69
This signifies the importance of spherical panoramas for indoor 3D capturing, as they are (re-)used in multiple 3D vision tasks [55, 50, 67]. このことは、複数の3次元視覚タスク [55, 50, 67] で(再)使用されるため、屋内3次元撮影における球状パノラマの重要性を示している。
訳抜け防止モード: これは屋内3D撮影における球状パノラマの重要性を示している。 複数の3D視覚タスク[55, 50, 67]で(再)使用される。
0.78
Spherical panoramas capture the entire scene context within their field-of-view (FoV), an important trait for scene understanding. 球面パノラマは、シーン理解の重要な特徴であるfov(field-of-view)内のシーンコンテキスト全体をキャプチャする。 0.63
While humans can infer out of FoV information, the same cannot be said for machines, with view extrapolation methods [44] using spherical data to address this. 人間はFoV情報から推測できるが、これに対処するために球状データを使用して外挿法[44]を見ると、機械では同じことは言えない。 0.75
Certain tasks like illumination or layout estimation implicitly extrapolate outside narrow FoVs. 照明やレイアウト推定のようなタスクは、狭いFoVの外で暗黙的に外挿する。 0.54
Neural Illumination [43] estimates a scene’s lighting from a single perspective image employing a perspective-to-spher ical completion intermediate task within their end-to-end model. Neural Illumination [43]は、エンドツーエンドモデル内のパースペクティブ・トゥ・球面補完中間タスクを使用して、シーンの照明を単一の視点の画像から推定します。 0.62
Estimating 1 推定 1 0.78
英語(論文から抽出)日本語訳スコア
a scene’s layout involves extrapolating structural information, and, thus, many works now resort to spherical panoramas to exploit their holistic structural and contextual information. シーンのレイアウトには構造情報の補間が伴うため、現在では多くの作品が球状パノラマを使って構造情報や文脈情報を活用している。 0.78
The seminal work of PanoContext [64], reconstructs an entire room into a 3D cuboid, fully exploiting the large FoV of omnidirectional panoramas . PanoContext [64]のセミナル作品では、部屋全体を3Dキューブに再構築し、全方位パノラマの大きなFoVを完全に活用します。 0.66
Its complex formulation and weak priors resulted in high computational complexity, requiring several minutes for each panorama. その複雑な定式化と弱い先行は計算の複雑さを増し、各パノラマに数分を要した。 0.60
While modern deep priors produce higher quality results [68, 60], increasing the accuracy of their predictions and ensuring Manhattan-aligned layouts, requires postprocessing and hurts runtime efficiency. 現代のディーププリエントは高品質な結果(68, 60]を生成し、予測の精度を高め、マンハッタン指向のレイアウトを保証する一方で、後処理を必要とし、ランタイム効率を損なう。 0.52
Spherical panoramas necessitate higher resolution processing, and therefore, increased computational complexity, as evidenced by recent data-driven layout estimation models [68, 60, 47]. 球面パノラマは高分解能処理を必要とするため、最近のデータ駆動レイアウト推定モデル [68, 60, 47] で示されているように、計算の複雑さが増大する。 0.67
More efficient alternatives [15] produce irregular (i.e. より効率的な代替品[15]は不規則(すなわち)を生成する。 0.61
non-Manhattan) outputs, require parameter sensitive postprocessing, and increase efficiency by lowering spatial resolution, which comes at the cost of accuracy. 非マンハッタンの)出力はパラメータに敏感な後処理を必要とし、空間分解能を低下させることで効率を向上させる。 0.70
Moreover, data-driven spherical vision needs to address the distortion of the projective omnidirectional data formats. さらに、データ駆動球面視覚は投影型全方位データフォーマットの歪みに対処する必要がある。 0.74
But distortion mitigating convolutions add a significant computational overhead as reported in [15] and [9]. しかし、歪み緩和畳み込みは[15]と[9]で報告されたように、大きな計算オーバーヘッドをもたらす。 0.63
In this work, we present a single-shot spherical layout estimation model. 本研究では,単一ショット球面レイアウト推定モデルを提案する。 0.75
As presented in Figure 1, we employ spherical-aware corner coordinate estimation and thus, add explicit constraints that facilitate vertically aligned corners. 図1に示すように、球面アウェアコーナー座標推定を採用し、垂直アライメントコーナーを容易にする明示的な制約を追加します。 0.72
Capitalizing on this, we further integrate full Manhattan alignment directly into the model, allowing for end-to-end training, lifting the postprocessing requirement. これに基づいて、完全なマンハッタンアライメントをモデルに直接統合し、エンドツーエンドのトレーニングを可能にし、後処理の要件を引き上げます。 0.57
2. Related Work 2.1. 2. 関連作業2.1。 0.78
Layout Estimation While an excellent review regarding the 3D reconstruction of structured indoor environments exists [40], our discussion will provide the necessary details for positioning our work. レイアウト推定 構造化屋内環境の3次元再構築に関する優れたレビューが[40]存在するが,本稿では,作業の位置決定に必要な詳細を述べる。 0.73
We focus on monocular layout estimation and thus, refrain from discussing works using multiple panoramas [39, 41, 37, 38], interaction [30], other types of cameras [27, 29]. 我々は,単眼的レイアウト推定に着目し,複数のパノラマ [39,41,37,38],インタラクション [30],その他のタイプのカメラ [27,29] を用いた作業の議論を控えた。 0.88
PanoContext [64] showcased the expressiveness of 360o panoramas in terms of structural and contextual information. PanoContext [64]は、構造的および文脈的な情報の観点から360oパノラマの表現力を示した。 0.69
Prior to the maturation of deep data-driven methods, PanoContext relied on edge and line detection, Hough transform, and deformable part models to generate different room layout hypotheses. ディープデータ駆動メソッドの成熟に先立ち、PanoContextはエッジとラインの検出、Hough変換、変形可能なパーツモデルに依存して、異なるルームレイアウトの仮説を生成する。 0.63
Similarly, low-level line segments were used in an energy minimization formulation to estimate a scene’s structural planes [17]. 同様に、低レベルラインセグメントは、シーンの構造面を推定するためにエネルギー最小化の定式化に使われた [17]。 0.73
In Panoramix [59], the line features were supplemented by superpixel facets, and embedded as vertices in a graph for a constrained least squares problem. パノラミックス[59]では、ライン特徴はスーパーピクセルのファセットで補足され、最小二乗問題に対する頂点としてグラフに埋め込まれた。 0.78
Hybrid data-driven methods [16] used structural edge detection to improve the performance and runtime of [64] when using fewer hypotheses. ハイブリッドなデータ駆動手法 [16] は,[64] の性能と実行性を改善するために, 構造的エッジ検出を用いた。 0.77
Pano2CAD [58] used a probabilistic formulation that relied on CNN object recognition and detection. Pano2CAD [58] は CNN オブジェクトの認識と検出に依存する確率的定式化を用いた。 0.69
It generated a synthetic scene reconstruction but required several minutes of processing. 合成シーンの再構築が行われたが、数分の処理が必要だった。 0.61
Its computational overhead largely comes from the fusion of narrow FoV predictions from perspective 360o crops. その計算オーバーヘッドは、遠近360o作物からの狭いfov予測の融合によるものである。 0.57
This is common to all aforementioned methods relying on line segments and to [61], which runs various CNNs on all narrow FoV sub-views before merging them in 360o. これは、ラインセグメントに依存する上記のすべての方法と、360oにマージする前にすべての狭いFoVサブビューでさまざまなCNNを実行する[61]に共通します。 0.63
PanoRoom [14] and LayoutNet [68] were the first models to be trained on spherical panoramas. panoroom [14] と layoutnet [68] は球面パノラマで訓練された最初のモデルである。 0.77
They both modelled layout corner and structural edge estimation as a spatial probabilistic inference task. レイアウトコーナーと構造エッジ推定を空間確率推論タスクとしてモデル化した。 0.72
While it is possible to extract the layout’s corners by relying on heuristically or empirically parameterized peak detection, these estimations will most likely not deliver Manhattan-aligned outputs. 階層的あるいは経験的にパラメータ化されたピーク検出を頼りにレイアウトの隅を抽出することは可能だが、これらの推定はマンハッタンに沿ったアウトプットを提供しない可能性が高い。 0.60
Consequently, joint optimization is performed using both sources of information to recover the final layout corner estimates. その結果、両方の情報源を使用して共同最適化を行い、最終的なレイアウトコーナー推定を回復する。 0.65
LayoutNet requires several seconds to infer and optimize the layout on a CPU, but PanoRoom is much faster as it uses a greedy RANSAC approach. LayoutNetはCPU上のレイアウトを推測し最適化するために数秒を要するが、PanoRoomは、欲張りのRANSACアプローチを使用するよりもはるかに高速である。 0.71
DuLa-Net [60] employs a novel approach for 360o layout estimation. DuLa-Net [60] は 360o レイアウト推定に新しいアプローチを採用している。 0.59
The main insight is that spherical images can be projected in multiple ways, and different projections highlight different cues. 主な洞察は、球面画像は複数の方法で投影でき、異なる投影は異なる手がかりをハイライトする。
訳抜け防止モード: 主な洞察は、球面画像を複数の方法で投影できることだ。 異なるプロジェクションは 異なる手がかりを浮き彫りにします
0.73
Specifically, DuLa-Net uses a ‘ceiling-view’ that offers a more informative viewpoint with respect to the floor-plan, which is a projection of a Manhattan 3D layout. 特にDuLa-Netでは,マンハッタンの3Dレイアウトの投影であるフロアプランに関して,より情報的な視点を提供する“シーリングビュー”を使用している。 0.75
It performs feature fusion across both the equirectangular and ceiling-view branches, using a height prediction to estimate the final 3D layout. 水平方向と天井面の両方で特徴融合を行い、高さ予測を用いて最終3次元レイアウトを推定する。 0.75
HorizonNet [47] is yet another novel take at omnidirectional layout estimation. HorizonNet [47]は、全方位レイアウト推定における別の新しいアプローチです。 0.65
Instead of image localised predictions, it encodes the boundaries and intersections in one-dimensional vectors, which are then used to reconstruct the scene’s corners. 画像の局所化予測の代わりに、1次元ベクトルの境界と交差を符号化し、シーンのコーナーを再構築するために使用されます。 0.72
This allows HorizonNet to exploit the expressiveness of recurrent models (LSTM [22]) to offer globally coherent predictions. これによりHorizonNetは、リカレントモデル(LSTM[22])の表現性を利用して、グローバルなコヒーレントな予測を提供することができる。 0.58
After a postprocessing step involving peak detection and height optimization, the final Manhattan-aligned layout is computed. ピーク検出と高さ最適化を含む後処理ステップの後、最終的なマンハッタンアラインレイアウトを算出する。 0.73
A recent thorough comparison between LayoutNet, DuLa-Net and HorizonNet was presented in [69]. LayoutNet、DuLa-Net、HorizonNetの最近の徹底的な比較は[69]で示されました。 0.64
Unified encoding models and training scripts were used to fairly evaluate these approaches. 統一エンコーディングモデルとトレーニングスクリプトは、これらのアプローチを公平に評価するために使われました。 0.56
Their findings indicate that the PanoStretch data augmentation proposed in [47], as well as its heavier encoder backbone lead to improved performance for the other models as well. これらの結果は,[47]で提案されたPanoStretchデータ拡張と,その重いエンコーダのバックボーンが,他のモデルの性能向上につながったことを示唆している。 0.78
The Cornersfor-Layout (CFL) [15] model is currently the most efficient approach for 360o layout estimation in terms of runtime, but at the expense of accuracy and Manhattan alignment. cornersfor-layout (cfl) [15]モデルは現在、ランタイムの観点から360oレイアウト推定の最も効率的なアプローチだが、精度とマンハッタンアライメントを犠牲にしている。 0.74
While an end-to-end model is discussed, an empirically or heuristically parameterized postprocessing image peak detection step is still required. エンドツーエンドモデルについて議論される間、経験的またはヒューリスティックにパラメータ化された後処理後の画像ピーク検出ステップが必要である。 0.53
2 2 0.85
英語(論文から抽出)日本語訳スコア
Compared to these approaches, our model is end-to-end trainable, producing Manhattan aligned corners in a singleshot. これらのアプローチと比較して、私たちのモデルはエンドツーエンドのトレーニング可能であり、マンハッタンのアライメントコーナーをシングルショットで生成します。 0.49
We approach the layout estimation task as a keypoint localization one and use an efficiently designed spherical model. 配置推定タスクをキーポイント定位タスクとしてアプローチし,効率的な球面モデルを用いた。 0.73
2.2. Learning on the Sphere 2.2. 球体に関する学習 0.64
There are multiple representations for spherical images with the more straightforward being the cube-map. 球面画像には複数の表現があり、より簡単なのは立方体マップである。 0.63
Traditional CNN models can be applied to the cube faces [33], and then warped back to the sphere. 従来のCNNモデルは、立方体面[33]に適用し、その後、球体に反り戻すことができます。 0.67
This was used in [64] and [59] to detect lines on each cube’s faces [53], while [58] and [61] used CNN inference on each face. これは [64] と [59] で各立方体の顔 [53] の線を検出するのに使われ、 [58] と [61] では各面のCNN推論を使用した。 0.89
Still, cubemaps suffer from distortion as well, and additionally require face-specific padding [4] to deal with the faces’ discontinuities. それでもキューブマップは歪みに苦しんでおり、顔の不連続に対処するには顔特有のパディング[4]が必要である。 0.61
Yet, to capture the global context these approaches need to expand their receptive field to connect all faces continuously, which leads to inefficient models. しかし、グローバルコンテキストを捉えるためには、すべての顔を連続的につなぐための受容領域を拡大する必要があるため、非効率なモデルに繋がる。 0.61
A novel line of research pursues model adaptation from the perspective domain to the equirectangular one [45]. 小説 研究のラインは、視点領域から等角領域へのモデル適応を追求しています[45]。 0.59
The follow-up work, Kernel Transformer Networks [46], adapt traditional kernels to the spherical domain in a learned manner, also discussing two important aspects. 続く作業である Kernel Transformer Networks [46] では,従来のカーネルを球面領域に学習的に適応させると同時に,2つの重要な側面についても論じている。 0.66
First, the accuracy-resolution trade-off for spherical images, which necessitates the user of higher resolutions. まず、より高い解像度のユーザーを必要とする球面画像の精度分解能トレードオフ。 0.70
Indeed, most aforementioned data-driven layout estimation methods from 360o images operate on 1024×512 images, which are unusually large for CNNs. 実際、前述の360o画像からのほとんどのデータ駆動レイアウト推定方法は、1024×512画像で動作します。 0.74
Only [15] is the exception to this rule, which further supports this point, taking into account its reduced performance. このルールは[15]のみが例外であり、パフォーマンスの低下を考慮して、この点をさらにサポートします。 0.74
The second point of discussion is related to the effect that non-linearities have, when combined with kernel projection methods like [6] and [51]. 第2の議論点は、非線形性が[6]や[51]のようなカーネルプロジェクション手法と組み合わせると、その効果と関連している。 0.75
It is shown that the assumption that needs to hold for no error to accumulate when using kernel projection, only holds for the first layers of the network, and as it deepens, the accumulated error becomes even larger. カーネルプロジェクションを使用する場合、エラーを蓄積する必要のない仮定は、ネットワークの第一層のみを保持し、それが深まるにつれて、累積誤差はさらに大きくなることが示されている。 0.75
Still, [15] shows that their EquiConv offer more robust predictions. それでも[15]は、EquiConvがより堅牢な予測を提供することを示している。 0.58
A generalization of this concept, Mapped Convolutions [9], decouple the sampling operation from the filtering one, and demonstrate increased performance in dense estimation tasks. この概念の一般化は, 畳み込み [9] をマッピングし, サンプリング操作をフィルタリング操作から切り離し, 高密度推定タスクの性能向上を示す。 0.80
Still, runtime performance is greatly reduced as reported in both [15] and [9]. それでも、[15]と[9]の両方で報告されているように、ランタイムのパフォーマンスは大幅に低下する。 0.55
This is also the main drawback of frequency-based spherical convolutions as presented in the concurrent works of [5] and [11]. これはまた [5] と [11] の同時処理で示される周波数ベースの球面畳み込みの主な欠点でもある。 0.82
They are also highly inefficient in terms of memory, allowing for training and inference in very low resolution images only. また、メモリの面では非常に非効率であり、非常に低解像度の画像のみのトレーニングと推論を可能にする。 0.63
DeepSphere [8] and [25] present another approach to handle distortion and discontinuity by leveraging graph convolutions and lifting the sphere representation to a graph. DeepSphere [8] と [25] は、グラフ畳み込みを利用して球面表現をグラフに持ち上げることで、歪みと不連続性を処理する別のアプローチを提示している。
訳抜け防止モード: DeepSphere [ 8 ] と [ 25 ] は、歪みと不連続性を扱う別のアプローチを示します。 グラフの畳み込みを活用して 球面表現をグラフに上げます
0.77
Nonetheless, this requires a graph generation step and loses efficacy compared to traditional convolutions, whose implementations are highly optimized to exploit the memory regularity of image representations. それでもグラフ生成のステップは必要であり、画像表現のメモリ正規性を利用するように高度に最適化された従来の畳み込みに比べて有効性が失われる。 0.64
The most efficient way to handle the discontinuity is circular padding [54, 47, 7], which is partly our approach as well, taking into account the inefficiency of distorted kernels. 不連続性を処理する最も効率的な方法は円形パディング[54, 47, 7]であり、これは歪んだカーネルの不効率を考慮しても私たちのアプローチの一部です。 0.81
It should also be noted that model adaptation methods would not transfer well for the layout estimation task. また、モデル適応手法はレイアウト推定タスクではうまく転送されないことに注意する必要がある。 0.72
While an object detection task parses a scene in a local manner, layout estimation requires to reason about the global context, with perspective methods typically needing to extrapolate the scene’s structure. オブジェクト検出タスクはローカルな方法でシーンを解析しますが、レイアウトの推定は、通常、シーンの構造を外挿する必要があるパースペクティブメソッドで、グローバルコンテキストを推論する必要があります。 0.79
However, as first proven by PanoContext [64], the availability of the entire scene is much more informative, and this would hinder the applicability of transferring models like RoomNet [27] to the 360o domain using such techniques [45, 46]. しかしながら、PanoContext [64] が最初に証明したように、シーン全体の可用性はずっと有益であり、このような技術 [45, 46] を使用してRoomNet [27] のようなモデルを 360o ドメインに転送する可能性を妨げる。 0.74
2.3. Coordinate Regression Regressing coordinates in an image has been shown to be an intriguingly challenging problem [31]. 2.3. 座標回帰 画像中の座標の回帰は興味深い難題であることが示されている[31]。 0.70
The proposed solution was to offer the coordinate information explicitly. 提案された解決策は、座標情報を明示的に提供することだった。 0.53
Yet, most keypoint estimation works in the literature initially used fully connected layers to regress coordinates. しかし、文献のほとんどのキーポイント推定は、最初は完全に接続されたレイヤーを使用して座標を回帰させた。 0.53
The counter-intuition is that convolutions are inherently spatial, and should be more well-behaved in spatial prediction tasks. 反直感は、畳み込みは本質的に空間的であり、空間予測タスクにおいてよりよく行動されるべきである。 0.54
This is how data-driven layout estimation models have addressed this problem up to now ([68], [15]), transforming coordinates into spatial configurations, using smoothing kernels to approximate coordinates, and leverage dense supervision. データ駆動型レイアウト推定モデルは、これまでこの問題に対処してきた([68], [15])。座標を空間構成に変換し、平滑化カーネルを使用して座標を近似し、密な監督を活用する。 0.72
Keypoint localisation tasks with semantic inter-correlated structures, typically use one heatmap per keypoint. キーポイントローカライズタスク セマンティックな相互関連構造を持つタスクは通常、キーポイント毎に1つのヒートマップを使用する。 0.57
However, an issue that has recently received attention [62], is the way the final coordinate is estimated from each dense prediction. しかし,最近注目されている問題[62]は,各密予測から最終座標を推定する方法である。 0.75
Indeed the spatial maxima might not always best approximate the coordinate, and thus, heuristic approaches have persisted. 実際、空間最大化は座標を最もよく近似するとは限らないので、ヒューリスティックなアプローチは継続している。 0.63
Specifically for layout estimation, where the corners are predicted on the same map, manually-set peak detection thresholds are used. 特に、同じ地図上でコーナーが予測されるレイアウト推定では、手動でピーク検出しきい値が使用される。 0.69
The overlapping works of [32], [48] and [35] derive smooth operations to reduce a heatmap to single a coordinate. 重なり合う[32],[48],[35]の作業は、座標を1つにするヒートマップを減らすための滑らかな操作を導出する。 0.71
Using the coordinate grid and a spatial softmax function, they smoothly, and differentiably, transform a spatial probabilistic representation into a single location. 座標グリッドと空間ソフトマックス機能を使用して、空間確率表現を1つの場所に変換します。
訳抜け防止モード: 座標グリッドと空間ソフトマックス機能を使って。 それらは滑らかに、そして区別可能に、空間確率表現を単一の場所に変えます。
0.64
As shown in [52], all the above operations are treating pixels as particles with masses, and estimate their center of mass. 52]に示すように、上記の操作はすべてピクセルを質量を持つ粒子として扱い、その質量の中心を推定している。 0.74
3. Single-Shot Cuboids 3. 単発cuboids 0.69
Unlike previous works, we approach layout estimation as a keypoint localisation task, alleviating the need for postprocessing and simultaneously ensure Manhattan aligned outputs. 従来の作業とは異なり、キーポイントの局所化タスクとしてレイアウト推定にアプローチし、後処理の必要性を緩和し、同時にマンハッタンアライメント出力を確保する。 0.62
Section 3.1 formulates our coordinate regression objective and its adaption to the spherical domain, Section 3.2 introduces the geodesic heatmaps and loss function and then, Section 3.3 provide insights into our model’s design, and the techniques to achieve end-to-end Manhattan alignment. 第3.1節は座標回帰目標とその球面領域への適応を定式化し、第3.2節は測地熱マップと損失関数を導入し、第3.3節は我々のモデルの設計とエンドツーエンドマンハッタンアライメントを実現する技術について洞察を与える。 0.80
3 3 0.85
英語(論文から抽出)日本語訳スコア
(cid:80)N N(cid:88) (cid:80)N N(cid:88) 0.84
i 3.1. Spherical Center of Mass 私は 3.1. 球状質量中心 0.60
The center of mass (CoM) cP for a collection of particles 粒子集合体における質量中心(CoM)cP 0.71
P : {p0, . P : {p0, 。 0.88
. . , pN} ∈ R3 is defined as: . . , pN} ∈ R3 は次のように定義される。 0.79
cP = i mipi M cP = i mipi M 0.85
, M = mi, , M = ミ... 0.67
(1) with mi being the mass of particle pi and M the system’s total mass. (1) miは粒子のpiとmの質量であり、システム全体の質量である。 0.83
The CoM cP represents a concentration of the particle system’s mass and does not necessarily lie on an existing particle. CoM cPは粒子系の質量の濃度を表しており、既存の粒子には必ずしも属さない。 0.72
This way, when considering a sparse keypoint estimation task in a structured grid, we can reformulate it as a dense prediction task by instead inferring the mass of each grid point. このように、構造化グリッドにおける疎鍵点推定タスクを考慮すれば、各グリッドポイントの質量を推測することで、密度の高い予測タスクとして再構成することができる。
訳抜け防止モード: こうなったら 構造化グリッドにおけるスパースキーポイント推定タスクの検討 各グリッドポイントの質量を推測することで、密集した予測タスクとして再構成することができる。
0.77
Using Eq. (1) we can directly supervise it with the keypoint coordinates, instead of relying on a surrogate objective as commonly done in pose estimation [62] or facial landmark detection [13]. Eqを使う。 1)ポーズ推定 [62] や顔のランドマーク検出 [13] で一般的に行われる代理目的に頼るのではなく,キーポイント座標で直接監督することができる。 0.79
For spherical layout estimation, the set of particles P for which we seek to individually estimate their per particle mass, lies on a sphere. 球面配置推定では、粒子単位の質量を個別に推定しようとする粒子 P の集合が球面上にある。
訳抜け防止モード: 球面配置推定のための粒子Pの集合 個々の粒子の質量を 個別に見積もろうとしています 球体の上にあります
0.79
Each layout corner is considered as the CoM of a distinct particle system defined on the sphere. 各配置コーナーは、球面上に定義された異なる粒子系のCoMと見なされる。 0.75
Each particle p = (φ, θ) on the sphere is represented by its longitude φ and latitude θ. 球面上の各粒子 p = ( φ, θ) は、その経度 φ と緯度 θ で表される。 0.78
While there are ways for learning directly on the 2-sphere S2 manifold, as explained in Section 2.2, they are very inefficient. 2次元球面 S2 多様体上で直接学習する方法はあるが、2.2 で説明されているように、それらは非常に非効率である。 0.57
Consequently, we consider the equirectangular projection of the sphere which preserves the angular parameterization of each particle. その結果,各粒子の角パラメータ化を維持する球面の等角射影を考える。 0.72
The equirectangular projection is an equidistant planar projection of the sphere, where the pixels in the image domain Ω : (u, v) ∈ [0, W ] × [0, H] are linearly mapped to the angular domain2 A : (φ, θ) ∈ [0, 2π] × [0, π]. 等角射影 (equidistant Planar projection) は球面の等価な平面射影であり、そこでは、画像領域の画素 (u, v) ∈ [0, W ] × [0, H] は、角度領域 A : (φ, s) ∈ [0, 2π] × [0, π] に直線的に写像される。 0.78
Nevertheless, this format necessitates a different approach to overcome its weaknesses, namely, image boundary discontinuity, and planar projection distortion. しかし、このフォーマットは、その弱点、すなわち画像境界の不連続性、平面投影歪みを克服する別のアプローチを必要とする。
訳抜け防止モード: しかし、このフォーマットは異なるアプローチを必要とします。 画像境界の不連続と平面投影歪みの 弱点を克服するためです
0.76
The discontinuity arises at the horizontal panorama boundary, where the particles, even though at the opposite sides of the image, are actually neighboring on the sphere. 不連続が生じる 画像の反対側にあるにもかかわらず、粒子が実際に球体に隣接している水平パノラマ境界。
訳抜け防止モード: 不連続が生じる 水平のパノラマの境界です 粒子は、画像の反対側にあるにもかかわらず、実際には、球体に隣接しています。
0.74
For traditional images, the (normalized) grid coordinates are typically defined in [0, 1] or [−1, 1], and thus, the particles at the boundary would be maximally distant. 従来の画像の場合、(正規化された)格子座標は通常 [0, 1] または [−1, 1] で定義され、したがって境界の粒子は最大距離である。 0.81
However, for spherical panoramas, the longitudinal coordinate φ is periodic and wraps around, with the particles at the boundaries being proximal (i.e. しかし、球面パノラマの場合、縦座標φは周期的にラップされ、境界の粒子は近位である(すなわち)。 0.68
minimally distant). To address this, we split the CoM calculation for the longitude and latitude coordinates, and adapt the former to consider each point as lying on a circle. 最小距離)。 これを解決するために、経度と緯度座標のCoM計算を分割し、各点を円上に横たわると見なすように前者を適応させた。 0.69
Therefore, for each panorama row, which represents a circle of (equal) latitude, we define new particles r ∈ R with したがって、(等)緯度の円を表す各パノラマ列に対して、新しい粒子 r ∈ R を定義する。 0.74
Figure 2: Spherical Center of Mass calculation. 図2:Spherical Center of Mass計算。 0.74
Left: Two sets of particles distributed on two circles of latitude (blue and pink). 左:緯度(青とピンク)の2つの円に分布する粒子の2つのセット。 0.81
Middle: Their equirectangular projection grid coordinates. 中間:彼らの等角投射グリッド座標。 0.75
Right: Lifting the problem to the unit circle allows for continuous CoM estimation. 右:問題を単位円に持ち上げることで、継続的なCoM推定が可能になります。 0.59
Darker points illustrate the CoMs calculated using our lifting approach, and white ones the erroneous estimates when directly estimating CoM on the grid. ダークポイントは、我々のリフトアプローチを用いて計算されたCoMと、グリッド上で直接CoMを推定する際の誤った推定を白に示します。 0.61
cR: cR = (¯λ, ¯τ ) = cR: cR = (¯λ, ¯τ ) = 0.90
(cid:80)N i miri M (cid:80)N i miri M 0.85
. (3) This estimates, exactly and continuously, the CoM of the circle. . (3) これは円のCoMを正確かつ連続的に推定する。 0.78
To map this back to the original domain, we extract the angle ¯φ: これを元のドメインにマップするには、角度 φ を抽出します。 0.76
¯φ = atan2(−¯τ ,−¯λ) + π, ¯φ = atan2(−¯τ ,−¯λ) + π, 0.99
(4) which represents the longitudinal CoM across the discontinuity. (4) これは不連続にまたがる縦方向のCoMを表す。 0.70
Figure 2 shows a toy example of CoM calculations along two circles of latitude on the sphere, with the erroneous estimates acquired on the equirectangular projection and the correct ones when considering the boundary. 図2は、球面上の2つの緯度の円に沿ったCoM計算のおもちゃの例を示し、等角射影上で得られた誤った推定値と境界を考える際の正しい推定値を示している。 0.64
Although the equirectangular projection maps circles of latitude (longitude) to horizontal (vertical) lines of constant spacing, the same does not apply for its sampling density. 等角射影は、緯度(経度)の円を一定の間隔の水平(垂直)線に写像するが、サンプリング密度には適用されない。 0.73
Indeed, while it samples the sphere with a constant density vertically, it stretches each circle of latitude to fit the same constant horizontal line. 実際、垂直に一定の密度で球体をサンプリングする一方で、緯度の各円を同じ一定の水平線に合わせるように伸ばす。 0.75
Thus, its sphere sampling density is not uniform in all planar pixel locations. したがって、球面サンプリング密度はすべての平面画素位置において均一ではない。 0.75
The sampling density is 1/ sin θ [49] and it approaches infinity near the pole singularities. サンプリング密度は 1/ sin θ [49] であり、極特異点の近くで無限に近づく。 0.82
When calculating the CoM in the equirectangular domain, we need to compensate for it by reweighting the contribution of each pixel p by σ(p) = sin θ [66]. 正方形領域の CoM を計算するとき、各ピクセル p の寄与を σ(p) = sin θ [66] で再重み付けして補う必要がある。 0.67
Essentially, given a dense mass prediction M(p), p ∈ A, we calculate the spherical CoM by first estimating a three-dimensional coordinate ca: 基本的に、密度質量予測 M(p), p ∈ A を考えると、まず三次元座標 ca を推定して球面 CoM を計算します。 0.78
(cid:80)A (cid:80)A (cid:80)A(cid:80)A 0.81
p M(p) σ(p) a(p) p M(p) σ(p) a(p) 0.85
p M(p) σ(p) p M(p) σ(p) 0.85
, (5) r(φ) = (λ, τ ) = (cos φ, sin φ), , (5) r(φ) = (λ, τ ) = (cos φ, sin φ) 0.83
(2) ca = (¯λ, ¯τ , ¯θ) = (2) ca = (¯λ, ¯τ , ¯θ) = 0.92
while lie on a unit circle. 単位円の上に横たわるのです 0.53
We can then calculate the CoM 2We transition between these terms flexibly given their linear mapping. 次に、線形マッピングにより、これらの用語間のCoM 2We遷移を柔軟に計算できます。 0.69
with a(p) = (r(φ), θ) = (cos φ, sin φ, θ), and then drop it to the two-dimensions again to calculate the final CoM a(p) = (r(φ), θ) = (cos φ, sin φ, θ) とすると、最後のCoMを計算するために再び2次元にドロップする。 0.82
4 4 0.85
英語(論文から抽出)日本語訳スコア
main using a shifted angular coordinate grid As the panorama: main using a shift angular coordinate grid as the panorama: 0.84
3 defined on G(cm, α) = 3 で定義します。 G(cm, α) = 0.71
√ 1 2π α e √ 1 2π α E 0.84
−g(cm,ps) 2α2 -g(cm,ps) 2α2 0.73
, ps ∈ As, , ps ∈ As, 0.85
(6) where α is the angular standard deviation around the distribution’s center cm, and g(·) is the geodesic distance: (6) ここでαは分布の中心cmの周りの角度標準偏差であり、g(...)は測地線距離です。 0.81
g(p1, p2) = 2 arcsin(cid:112) g(p1, p2) = 2 arcsin(cid:112) 0.90
sin2 ∆θ 2 , 2 +cos θ1 cos θ2 sin2 ∆φ sin2 です。 2 , 2 +cos θ1 cos θ2 sin2 0.71
(7) where ∆φ = φ1 − φ2 and ∆θ = θ1 − θ2. (7) where ∆φ = φ1 − φ2 and ∆θ = θ1 − θ2. 0.87
As illustrated in Figure 3, using the geodesic distance between two angular coordinates on the equirectangular panorama, we reconstruct geodesic heatmaps that simultaneously take into account both the continuous boundary, as well as the projection’s distortion. 図3に示すように、等方形パノラマ上の2つの角座標の間の測地線距離を用いて、連続境界と射影の歪みの両方を同時に考慮した測地線熱マップを再構成する。 0.80
3.3. End-to-end Manhattan Model 3.3. エンド・ツー・エンドマンハッタンモデル 0.66
Our model infers a set of heatmaps Mj, one for each layout corner j ∈ [1, J] (or junction, given that 3 planes intersect), with J = 8 for cuboid layouts. 私たちのモデルは、各レイアウトコーナー j ∈ [1, J] に対する熱マップ Mj のセット(または 3 つの平面が交差していることを考えるとジャンクション)と、キューブ型レイアウトに対する J = 8 を推測する。
訳抜け防止モード: 我々のモデルは、各レイアウトコーナー j ∈ [ 1] に対して、ヒートマップ Mj の集合を推論する。 J ] (3次元平面が交わるときの接合) cuboid レイアウトの J = 8 で。
0.83
It operates in a single-shot manner, as these predictions are directly mapped into layout corners cj m. Apart from removing the post-processing step, another advantage of our single-shot approach is the sub-pixel level accuracy that it allows for, as the CoM of the particles is not necessarily one of the particles themselves. これらの予測はレイアウトコーナーcjmに直接マッピングされるので、シングルショット方式のもう一つの利点は、粒子のcomが必ずしも粒子自体の1つであるとは限らないため、それが許容されるサブピクセルレベルの精度である。 0.69
This translates to a reduction of the input and working resolution of the model. これはモデルの入力と動作の解像度の削減を意味する。 0.72
We choose a light-weight stacked hourglass (SH) architecture [34]. 軽量の積み重ね時計(SH)アーキテクチャ[34]を選択します。 0.58
It is designed for multi-scale feature extraction and merging, that enables the effective capturing of spatial context. 空間的コンテキストを効果的にキャプチャできるマルチスケールの特徴抽出とマージのために設計されている。 0.65
It suits spherical layout estimation very well as it is a global scene understanding task that benefits from spatial context aggregation, which is achieved by lowering the spatial dimension of the features. 球面配置推定に非常に適しており、空間的コンテキスト集約の恩恵を受けるグローバルなシーン理解タスクであり、特徴の空間的次元を下げることによって達成される。 0.79
Still, it also requires precise localisation of specific keypoints, which needs higher spatial fidelity, (i.e. それでも、より高い空間的忠実性を必要とする特定のキーポイントの正確な局在化も必要である(すなわち)。 0.58
resolution) predictions. 3.3.1 Stacked Hourglass Model Adaptation 解像度)予測。 3.3.1 Stacked Hourglass Model Adaptation 0.73
We made several modifications to the original SH model stemming mainly from recent advances made in the field. 主にこの分野での最近の進歩から生まれたオリジナルSHモデルにいくつかの修正を行いました。 0.65
While we preserve the original residual block [20] in the feature preprocessing block, we replace the hourglass residual blocks with preactivated ones [21]. 特徴前処理ブロックにおける元の残差ブロック[20]を保存しながら、時間ガラス残差ブロックを予めアクティブ化したブロック[21]に置き換える。 0.77
Essentially, this adds direct identity mappings between the stack of hourglasses, allowing for immediate information propagation from the output to the earlier hourglass modules. 基本的に、これは時間ガラスのスタック間の直接のIDマッピングを追加し、出力から初期の時間ガラスモジュールへの即時情報伝達を可能にする。 0.63
We also use antialiased max-pooling [63], which preserves shift equivariance and leads to smoother activations across downsampled layers. アンチエイリアスドマックスプール [63] も使用し, シフト等分散を保ち, ダウンサンプリング層をまたいでよりスムーズにアクティベーションを誘導する。 0.65
Finally, unlike some state-of-the-art spherical layout estimation methods [68, 60, 69], we address feature map 最後に,最先端の球面レイアウト推定手法 [68, 60, 69] と異なり, 特徴地図に対処した。 0.75
3φ and θ are shifted by −π and −π/2 respectively. 3φ と θ はそれぞれ −π と −π/2 でシフトする。 0.72
5 Figure 3: Geodesic heatmaps respect the horizontal boundary continuity and the equirectangular projection’s distortion. 5 図3:測地的熱マップは水平境界の連続性と等方射影の歪みを尊重する。 0.82
Five normal distributions on the sphere centered around different coordinates but using the same angular standard deviation are presented on the top row. 球面上の5つの正規分布は異なる座標を中心にしているが、同じ角標準偏差を用いる。 0.74
Their corresponding geodesic heatmaps are aggregated on the equirectangular image on the bottom row. 対応する地平線ヒートマップは、下行の等角画像上に集約される。 0.66
In addition, the geodesic distance between the red square and the colorized diamond coordinates are also presented on the same image. また、赤の正方形と色付きダイヤモンド座標の間の測地距離も同じ画像で示されています。 0.76
The geodesic distance similarly respects the boundary and distortion of the equirectangular projection as seen by the great circles drawn on the image that correspond to each pair’s angular distance. 測地線距離も同様に、各対の角距離に対応する画像上に描かれた大円で見られるように、等方射影の境界と歪みを尊重する。 0.79
cm = ( ¯φ, ¯θ) = (atan2(−¯τ ,−¯λ) + π, θ) of M in the equirectangular domain. 等角領域における m のcm = ( λ φ, θ) = (atan2(− τ ,− λ) + π, θ) である。 0.84
3.2. Geodesic Heatmaps 3.2. 測地熱マップ 0.68
Accordingly, predicting the sparse coordinates of a corner comes down to predicting the dense mass map M, or otherwise heatmap, which is the terminology we will be using hereafter. したがって、角のスパース座標の予測は、密度の高い質量写像M、あるいは、今後使用する用語であるヒートマップの予測につながる。 0.65
Previous approaches complemented the sparse objective with a dense regularisation term [35]. 以前のアプローチは、密接な正規化用語 [35] でスパース目標を補完した。 0.63
The reason was that CoM regression is not constrained in any way as to the shape of its dense prediction. 理由は、CoMレグレッションがその密度予測の形状に関していかなる制約も課さないからである。 0.66
This was addressed by adding a distribution loss over the predicted heatmap and a Gaussian centered at the groundtruth coordinate. これは、予測された熱マップと基底座標中心のガウス座標に分布損失を加えることで解決された。
訳抜け防止モード: これは宛てられた 予測された熱マップと 地平線座標中心のガウシアンに 分布損失を加えた
0.77
Yet while extracting the CoM, as presented in Section 3.1, takes the spherical domain into account, traditional (flat) Gaussian heatmaps do not. しかし、3.1節で示されるように、CoMを抽出することは球面領域を考慮に入れるが、伝統的な(平坦な)ガウス熱写像は考慮しない。
訳抜け防止モード: しかし、第3.1節に示すように、CoMを抽出する際、球面領域を考慮に入れます。 伝統的な(平坦な)ガウス熱写像は .
0.63
A spatial normal distribution N (c, s) centered around a coordinate c = (u, v), using a standard deviation s = (sx, sy) would consider the equirectangular image as a flat one, with a discontinuous boundary and no distortion. 座標 c = (u, v) を中心に、標準偏差 s = (sx, sy) を用いた空間正規分布 n (c, s) は、等角像を平坦な像として、不連続な境界を持ち歪みのないものと考える。 0.81
To overcome this, we construct geodesic heatmaps, which are reconstructed directly on the equirectangular do- これを克服するために、等方形Do上に直接再構成された測地線熱マップを構築する。
訳抜け防止モード: これを克服する。 私達は等角のdoで直接再建されるgeodesic熱地図を造ります。
0.62
英語(論文から抽出)日本語訳スコア
Figure 4: Our model stacks N hourglasses which embed recently developed CNN modules for direct inter-hourglass information flow, spherically padded convolutions, and smoother multi-scale feature flow. 図4:私たちのモデルは、直結の砂時計情報フロー、球状パッド付き畳み込み、そしてよりスムーズなマルチスケール機能フローのために最近開発されたCNNモジュールを埋め込んだN砂時計を積み重ねます。
訳抜け防止モード: 図4 : 最近開発されたcnnモジュールを組み込んだn時間ガラスのモデルスタック 球形の畳み込み畳み込み、より滑らかなマルチスケールの特徴フロー。
0.68
The predicted geodesic heatmaps get transformed directly to panoramic layout coordinates through a spherical CoM module. 予測された測地線熱マップは、球状CoMモジュールを介してパノラマ配置座標に変換される。 0.66
Since we regress coordinates, we explicitly enforce quasi-Manhattan alignment. 座標を回帰するため、準マンハッタンアライメントを明示的に実施する。 0.52
This sets the ground for a homography-based cuboid alignment head that ensures the Manhattan alignment of our estimates. これは、我々の推定値のマンハッタンアライメントを保証するホモグラフィベースの立方体アライメントヘッドの基盤となる。 0.72
The (cid:70) symbol denotes a global multiply-accumulate operation, reducing the predicted dense representation to a set of sparse coordinates. cid:70)記号は、グローバル乗算累積演算を表し、予測された密度表現をスパース座標の集合に還元する。 0.74
Color-graded spheres indicate coordinate-based distance from the origin. 色調球面は原点からの座標に基づく距離を示す。 0.69
discontinuity by using spherical padding. 球面パディングによる不連続性 0.62
For the horizontal image direction, we apply circular padding, as also done in [54] and [47], and for the vertical one at the pole singularities, we resort to replication padding. 水平方向については, [54] と [47] で行ったように円形のパディングを施し, 極特異点における垂直方向のパディングには複製パディングを用いる。 0.64
3.3.2 Quasi-Manhattan Alignment 3.3.2 擬似manhattanアライメント 0.44
Since we are directly regressing coordinates, we can explicitly ensure quasi-Manhattan alignment during training and inference alike. 直接座標をリグレッシブするため、トレーニングや推論において、擬似マンハッタンアライメントを明示的に保証することができる。 0.55
Previous approaches either use postprocessing to ensure the Manhattan alignment of their predictions [68, 60, 47], or simply forego it and produce nonManhattan outputs [15]. 従来のアプローチでは、ポストプロセッシングを使用して、マンハッタンの予測のアライメントを保証する[68, 60, 47]か、あるいは単に前もって非マンハッタン出力を生成する[15]。 0.71
While this relaxation is sometimes presented as an advantage, most man-made environments are Manhattan-aligned, with walls being orthogonal to ceiling and floors, and therefore, same edge wall corners are vertically aligned. この緩和はしばしば利点として提示されるが、ほとんどの人工的な環境はマンハッタンに並んでおり、壁は天井と床に直交しており、したがって同じ縁壁の角が垂直に並んでいる。 0.65
For each wall-to-ceiling junction, there exists a wall-to-floor junction, effectively splitting our heatmaps in two groups, the top Mj t and bottom Mj b heatmaps (i.e. 壁面から壁面への接合には壁面と床面の接合があり、私たちのヒートマップを2つのグループ、すなわちトップMj t とボトムMj b のヒートマップに効果的に分割する。 0.61
ceiling and floor junctions respectively). 天井および床の接合箇所それぞれ)。 0.72
We enforce quasi-Manhattan alignment by averaging the longitudinal coordinates of each wall’s vertical edge, guaranteeing a consistent longitudinal coordinate for both the top and bottom junction. 各壁の縦端の縦方向座標を平均し、上下両接合の一貫した縦方向座標を保証し、擬似マンハタンアライメントを施行する。 0.75
3.3.3 Homography-based Full Manhattan Alignment 3.3.3 ホログラフィーに基づくフルマンハッタンアライメント 0.55
This quasi-Manhattan alignment ensures that wall edges are vertical to the floor, but does not enforce their orthogonality. この準マンハッタンアライメントは、壁の端が床に垂直であることを保証するが、その直交性は強制しない。 0.62
To achieve this, we introduce a differentiable operation that transforms the predicted corners so as to ensure the orthogonality between adjacent walls. そこで我々は,隣接する壁間の直交性を確保するために,予測コーナーを変換する微分可能な操作を導入する。 0.78
While the estimated corners are up-to-scale, with a single center-to-floor/ceiling measurement/assumpti on we can extract metric 3D coordinates for each corner as in [64]4, by fixing the ceiling/floor vertical distance to the corresponding average height. 推定コーナーは最大規模であるが,天井/床垂直距離を対応する平均高さに固定することにより,[64]4のように各コーナーの3次元座標を抽出することができる。 0.77
We extract the f = (x, y) horizontal coordinates coordinates, corresponding to an orthographic floor view projection, which comprise a general trapezoid. f = (x, y) の水平座標座標を抽出し, 一般的な台形からなるホログラフィックフロアビュー投影に対応する。 0.66
This is transformed to a unit square by estimating the projective transformation H (planar homography) mapping the former to the latter [18]. これは前者を後者 [18] にマッピングする射影変換 h (平面ホモグラフィ) を推定することによって単位正方形に変換される。 0.79
Using the trapezoid’s edge norms (cid:107)v(cid:107)2 , with v = f j+1 − f j, we calculate the average opposite edge distances and use them to scale the unit square to a rectangle, after translating it for their centroids to align. v = f j+1 − f j で、ピケソイドの辺ノルム(cid:107)v(cid:107)2 を用いて、平均対向する辺距離を計算し、単位正方形を長方形に拡大し、遠方形に変換して整列させる。 0.68
Then, we rotate and translate the rectangle to align with the original trapezoid using orthogonal Procrustes analysis [42]. そして, 直交procrustes分析 (42) を用いて, 矩形を回転・変換し, 元の台形と整合させる。 0.72
Finally, the rectangle gets lifted to a cuboid using the vertical (z) ceiling and floor coordinates. 最後に、長方形は垂直(z)天井と床座標を用いて立方体に持ち上げられる。 0.72
The resulting cuboid 結果として生じる立方体 0.44
4See the supplementary material [56] 4 補足資料[56]を参照。 0.61
6 6 0.85
英語(論文から抽出)日本語訳スコア
vertices can be transformed back to angular coordinates for loss computation, with the overall process presented in Figure 5. 頂点は損失計算のために角座標に変換でき、全体のプロセスは図5に示される。 0.71
We use this cuboid alignment transform C as the final block of our model to ensure full Manhattan alignment in an end-to-end manner. この立方体アライメント変換Cをモデルの最終ブロックとして使用し、マンハッタンのアライメントをエンドツーエンドで確実にします。 0.69
We supervise the junction angular coordinates using the ジャンクション角座標をモニタリングします。 0.53
geodesic distance of Eq. (7): Eqの測地線距離。 (7): 0.82
(cid:88) j (cid:88) j 0.82
LG = 1 J g(cj LG = 1 J g(cj) 0.87
m, ˆcj m), m, scj m)。 0.71
(8) m and ˆcj with cj m being the groundtruth and predicted coordinates. (8) mとcj cj mが基本となり 座標が予測されます 0.77
The geodesic distance smoothly handles the continuous boundary and provides a more appropriate distance metric on the sphere, instead of the equirectangular projection. 測地線距離は連続境界をスムーズに処理し、等角射影の代わりに球面上のより適切な距離計量を提供する。 0.85
We additionally supervise the spatially normalized heatmaps Hj = spatial sof tmax(Mj) predicted by our model with Kullback Leibler divergence: DKL(Hj, ˜G(cj さらに、我々のモデルにより予測される空間正規化された熱マップ Hj = space sof tmax(Mj) をKullback Leibler の発散により監督する: DKL(Hj, >G(cj) 0.68
(cid:88) LD = (cid:88) LD = 0.82
(9) m)), (9) m) である。 0.75
A∫ ,j where ˜G(·) is the spatially normalized geodesic heatmap G(·). アース、j G(·) は空間正規化された測地熱写像 G(·) である。 0.57
Apart from regularizing the predicted heatmaps, this loss allows for stable end-to-end training with the cuboid alignment transform, as pure coordinate supervision destabilized the model during early training, which prevented convergence as a consequence of the double solve required in the homography and Procrustes analysis. 予測熱マップの正則化とは別に、この損失は立方体アライメント変換による安定したエンドツーエンドトレーニングを可能にし、純粋な座標監督が早期トレーニング中にモデルを不安定化し、ホモグラフィとプロクリスト解析で必要とされる二重解の結果として収束を妨げた。 0.69
Our final loss is defined as: 最後の損失は次のとおりである。 0.60
N(cid:88) n=1 N(cid:88) n=1 0.71
L = λG N Ln G + L = λG N Ln G + 0.86
λD N Ln D, λD N Ln D。 0.80
(10) with λG and λD being weighting factors between the geodesic distance and KL loss, applied on each of the N hourglass predictions. (10) λG と λD は測地線距離と KL 損失の間の重み付け因子であり、各 N の砂時計予測に適用される。 0.80
The higher level SH architecture allows for global processing without relying on heavy bottlenecks [68], computational expensive feature fusion [60] or recurrent models [47]. 高レベルSHアーキテクチャは、重いボトルネック[68]、計算高価な特徴融合[60]、または繰り返しモデル[47]に頼ることなく、グローバル処理を可能にします。 0.65
It also requires no post-processing as it can produce a Manhattan aligned layout in a single-shot with high accuracy albeit operating at lower than typical resolutions. また、マンハッタンにアライメントされたレイアウトを、通常の解像度よりも低い精度で作成できるため、後処理も不要である。 0.65
4. Results 4.1. Implementation Details 4. 結果4.1。 実施内容 0.63
The input to our model is a single upright5, i.e. 私達のモデルへの入力は単一のupright5、すなわちです。 0.76
horizontal floor, 512 × 256 spherical panorama. 横の床、512 × 256球面パノラマ。 0.65
We use 128 features for each hourglass’s residual block, with a 128×64 heatmap resolution, and initialize our SH model using [19]. 1時間ガラスの残差ブロックごとに128の機能を128×64のヒートマップ解像度で使用し、[19]を使ってSHモデルを初期化します。 0.65
We use the Adam [26] optimizer with a learning rate of 0.002 and 学習率0.002のAdam [26]オプティマイザを使用します。 0.72
5Traditional [68, 23], or data-driven methods [24] can be used. 5Traditional [68, 23] あるいはデータ駆動方式 [24] が利用可能である。 0.88
7 Figure 5: Starting from quasi-Manhattan corner estimates, these get first deprojected (K−1) to 3D coordinates. 7 図5: 準マンハッタン角推定から始めれば、これらは最初に(K−1)から3次元座標に分解される。 0.73
Then, keeping only the horizontal coordinates (F), we get a floor view trapezoid, which depending on the measurement and coordinates (floor/ceiling) our projection operated on, is slightly different (cyan for the ceiling, and blue for the floor). 次に、水平座標(F)のみを保持すると、私たちのプロジェクションが操作する測定と座標(床/天井)に応じて床のビュー台形がわずかに異なります(天井のサイアン、床の青)。 0.68
Using these floor view horizontal coordinates, we estimate a homography H to transform them to an axis aligned, unit square. これらのフロアビュー水平座標を用いて、ホログラフィHを推定し、それらを軸整列単位正方形に変換する。 0.72
This gets translated and scaled (S) using the average opposite edge lengths and centroid of the original untransformed floor view coordinates. これは、元の非変換フロアビュー座標の平均対向長とセントロイドを用いて変換およびスケール(S)される。 0.77
An orthogonal Procrustes analysis (O) is used to align the rectangle to the trapezoid, which then gets lifted to a cuboid (Q) using the original heights, taking into account the quasiManhattan alignment of our estimates. 直交プロクルス解析 (o) を用いて矩形を台形に整列させ, 元の高さを用いて立方体 (q) へ持ち上げ, 推定値の擬マンタンアライメントを考慮に入れる。 0.71
The cuboid’s 3D coordinates then get projected (K) back to equirectangular domain corners. キューブの3D座標は、正方形の領域角に(K)投影されます。 0.73
Apart from the ceiling and floor starting corners, we also consider a joint approach where the horizontal floor view coordinates get averaged from both 3D estimates, before proceeding to estimate the homography. 天井と床のスタートコーナーとは別に、水平フロアビュー座標が両方の3D推定値から平均化される共同アプローチを検討し、ホモグラフィーの推定を進めます。 0.78
For this approach to work, we rescale the ceiling coordinates so that their camera to floor distances align, therefore removing any scale difference from the camera’s position deviation from the true center. このアプローチでは、天井座標を再スケールして、カメラを床からの距離に合わせることで、カメラの位置が真の中心からずれることから、スケールの差を排除します。 0.76
default values for the other parameters, no weight decay, and a batch size of 8. 他のパラメータのデフォルト値、重量減衰なし、および8のバッチサイズ。 0.65
Further, after an empirical greedy search, we use a fixed α = 2o and s = (3.5, 3.5) for our Geodesic and Isotropic Gaussian distribution reconstructions respectively, which are created using the encoding of [62], and set the loss weights to λG = 1.0 and λD = 0.15. さらに, [62] の符号化を用いて生成した測地線および等方性ガウス分布の再構成には, 経験的欲望探索の後に, 固定 α = 2o と s = (3.5, 3.5) を用い, 損失重みを λg = 1.0 と λd = 0.15 に設定する。 0.81
For cuboid alignment we use the joint approach and use a floor distance of −1.6m. 立方体アライメントには関節アプローチを使用し、床距離は −1.6m である。 0.63
We implement our models using PyTorch [36, 12], setting the same seed for all random number generators. PyTorch [36, 12]を使用してモデルを実装し、すべての乱数発生器に同じシードを設定します。 0.75
Further, each parameter update uses the gradients of 16 samples. さらに、各パラメータ更新は16サンプルの勾配を使用する。 0.81
We apply heavy data augmentation during training, as established in prior work [69, 47, 15]. トレーニング中の重データ拡張は, これまでの作業で確立されていた[69, 47, 15]。 0.72
Apart from photometric augmentations (random brightness, contrast, and gamma [2]), following [15], we further apply random erasing, with a uniform random selection between 1 and 3 blocks erased per sample. 光度増大(ランダム輝度, コントラスト, ガンマ[2])とは別に, [15] に続くランダム消去も適用し, サンプル当たり1ブロックから3ブロックのランダム選択を均一に行う。 0.74
We also probabilistically apply a set of 360o panorama specific augmentations in a cascaded manner: i) uniformly random horizontal rotations spanning the full an- また,360oパノラマ比増分法をカスケード方式で確率的に適用する: (i) 全Anにまたがる一様ランダム水平回転- 0.79
英語(論文から抽出)日本語訳スコア
Figure 6: Qualitative results on the PanoContext (top) and Stanford2D3D (bottom) datasets. 図6: PanoContext(トップ)とStanford2D3D(ボット)データセットの質的な結果。 0.76
On each panorama, we overlay the reconstructed layout from the groundtruth red and predicted blue junctions. 各パノラマに、再建されたレイアウトを赤地からオーバーレイし、青の接合を予測します。 0.60
The next row showcases the overlaid aggregated heatmap predictions, with the following one illustrating the resulting 3D mesh. 次の行はオーバーレイされたヒートマップ予測を示し、次の行は得られた3Dメッシュを示しています。 0.55
Finally, two orthographic floor views are presented, showing the full Manhattan (left), and quasi-Manhattan aligned (right) estimations. 最後に2つの正書法フロアビューを示し、完全なマンハッタン(左)と準マンハッタンアライメント(右)の評価を示す。 0.74
8 8 0.85
英語(論文から抽出)日本語訳スコア
gle range, ii) left-right flipping, and iii) PanoStretch augmentations [47] using the default stretching ratio ranges. gle range, ii) left-right flipping, and iii) PanoStretch augmentations [47] デフォルトのストレッチ比範囲を使用して。 0.80
All augmentation probabilities are set to 50%. すべての拡張確率は50%に設定される。 0.65
4.2. Datasets 4.2. データセット 0.66
Prior work up to now has experimented with small scale datasets. これまで、小規模データセットの実験を行ってきた。 0.72
PanoContext [64] manually annotated a total of 547 panoramas from the Sun360 dataset [57] as cuboids. panocontext [64] は、sun360データセット [57] の合計547パノラマをcuboidsとして手動で注釈した。 0.66
Additionally, LayoutNet manually annotated 552 panoramas from the Stanford2D3D dataset [1], which are not complete spherical images as their vertical FoV is narrower. さらに、LayoutNetは、Stanford2D3Dデータセット[1]から手動で552のパノラマを注釈付けしました。
訳抜け防止モード: さらに、LayoutNetはStanford2D3Dデータセットからの52パノラマを手動で注釈付けした[1 ]。 垂直のFoVが狭いため、完全な球面画像ではない。
0.56
Similar to previous works, we use the common train, test and validation splits as used in [15] and [68] for the PanoContext and Stanford2D3D datasets respectively. 以前の作業と同様に、PanoContextとStanford2D3Dデータセットそれぞれに、[15]と[68]で使用される共通トレイン、テスト、バリデーションの分割を使用します。 0.69
Taking into account their small scale, we jointly consider them as a single real dataset and train all our models for 150 epochs. 彼らの小さなスケールを考慮して、私たちはそれらを単一の実際のデータセットとみなし、すべてのモデルを150エポックでトレーニングします。
訳抜け防止モード: 小ささを考慮に入れてください。 私たちは共同で 単一のデータセットとみなし あらゆるモデルを150エポックで訓練します
0.73
More recently, layout annotations have been provided in newer computer-generated datasets, the Kujiale dataset used in [28] and the Structured3D dataset [65], totaling 3550 and 21835 annotated images respectively. 最近では、新しいコンピュータ生成データセット、[28]で使用されるKujialeデータセット、およびStructured3Dデータセット[65]にレイアウトアノテーションが提供され、それぞれ3550と21835の注釈付きイメージが提供されている。
訳抜け防止モード: 最近では、新しいコンピュータでレイアウトアノテーションが提供されています。 28] で使用される Kujiale データセットと Structured3D データセット [65] 合計 3550 および 21835 の注釈付きイメージそれぞれ。
0.81
Albeit synthetic, they offer a much more expanded data corpus than what is currently available for real datasets. 合成ではあるが、実際のデータセットで現在利用可能なものよりもはるかに拡張されたデータコーパスを提供する。 0.63
Given their synthetic nature, these datasets offer different room styles for the same scene. 合成の性質から、これらのデータセットは同じシーンに対して異なるルームスタイルを提供する。 0.67
In particular, they provide empty rooms as well as rooms filled with furniture by interior designers. 特に、室内デザイナーの家具で満たされた部屋と同様に、空の部屋を提供する。 0.70
For the Kujiale dataset we use both types of scenes, while for Structured3D we only use full scenes and follow their respective official dataset splits. Kujialeデータセットでは両方のタイプのシーンを使用しますが、Structured3Dでは完全なシーンのみを使用し、それぞれの公式データセットの分割に従います。 0.64
Our models are trained for 30 and 125 epochs respectively on Structured3D and Kujiale. 私たちのモデルは、Structured3DとKujialeでそれぞれ30および125エポックのトレーニングを受けています。 0.61
4.3. Metrics 4.3. メトリクス 0.68
For the quantitative assessment of our approach against prior works we use a set of standard metrics found in the literature [69], complemented by another set of accuracy metrics. 先行研究に対する我々のアプローチを定量的に評価するために、文献[69]に見られる標準メトリクスのセットを使用し、別の精度メトリクスのセットで補完する。 0.71
The standard metrics include 2D and 3D intersection over union (IoU2D and IoU3D), normalized corner error (CE), pixel error (PE), and the depth-based RMSE and δ1 accuracy [10]. 標準測度には、結合上の2Dと3Dの交叉(IoU2DとIoU3D)、正規化コーナー誤差(CE)、ピクセル誤差(PE)、深さに基づくRMSEとδ1の精度 [10]が含まれる。 0.69
For all 3D calculations a fixed floor distance at −1.6m is used. 全ての3d計算では-1.6mの固定床距離が用いられる。 0.66
We also use junction (Jd) and wireframe (Wd) accuracy metrics, defined as correct when the closest groundtruth junction or line segment respectively is within a pixel threshold d. More specifically, we use the thresholds d = [5, 10, 15]. また、接合(Jd)とワイヤーフレーム(Wd)の精度指標も使用し、最も近い接地接合部または線セグメントがピクセルしきい値d内にある場合に正しいと定義します。
訳抜け防止モード: また、接合(Jd)とワイヤフレーム(Wd)の精度測定も使用しています。 正しいと定義されるとき 最も近い接地ジャンクションまたは線分は、それぞれピクセル閾値dの範囲内である。 閾値 d = [ 5, 10, 15 ]
0.77
Finally, since we regress sub-pixel coordinates, all metric calculations are evaluated on a 1024 × 512 panorama resolution, and the arrows next to each metric denote the direction of better performance. 最後に、サブピクセル座標を回帰するため、すべてのメトリック計算は1024×512パノラマ解像度で評価され、各メトリックの隣の矢印はより良いパフォーマンスの方向を示す。 0.81
4.4. Performance Analysis First, we focus on the latest results reported in [69], where three data-driven cuboid panoramic layout estimation methods ([68, 60, 47]) were adapted for fairer compar- 4.4. 性能分析 まず,データ駆動型3つのパノラマ配置推定法([68, 60, 47])を,より公平な組み合わせに適用した [69] で報告された最新の結果に着目した。 0.77
ison. Similar to [69], we train a 3 stack (HG-3) single-shot cuboid (SSC) model using the real dataset. アイソン 69]と同様、実データセットを用いて3スタック(HG-3)のシングルショットキューブ型(SSC)モデルを訓練する。 0.59
We present results tested on real (combined and single) datasets in Table 1 where our model compares favorably with the state-of-theart6, offering robust performance and end-to-end Manhattan aligned estimates, a trait no other state-of-the-art method offers currently. モデルが最先端の6と好意的に比較し、堅牢なパフォーマンスとエンドツーエンドのマンハッタンアライメントの見積もりを提供するテーブル1の実際の(組み合わせとシングル)データセットでテストされた結果を提示します。 0.75
For these results, we report the same metrics as those reported in [69]. これらの結果については,[69]に報告された指標と同じ指標を報告する。 0.71
Furthermore, Figure 6 presents a set of qualitative results for our HG-3 model on these two datasets. さらに、図6は、これらの2つのデータセット上のHG-3モデルの定性的な結果のセットを示しています。 0.56
With the recent availability of large scale synthetic datasets, we additionally train a model using Structured3D [65]. 最近、大規模な合成データセットが利用可能になったことで、Structured3D [65]を使ってモデルをトレーニングする。 0.64
Since only HorizonNet offers a pretrained model using the same data, we present results on the Structured3D test dataset for two HorizonNet variants and our model in Table 2. HorizonNetだけが同じデータを使用した事前トレーニングモデルを提供しているため、2つのHorizonNetバリアントに対するStructured3Dテストデータセットの結果と、私たちのモデルを表2に示します。 0.70
Apart from the standard model that includes postprocessing, we also assess a single-shot variant of HorizonNet. 後処理を含む標準モデルとは別に、HorizonNetのシングルショット変形も評価します。 0.68
For this, we only perform peak detection on the predicted wall-to-wall boundary vector and directly sample the heights at the detected peaks to reconstruct the layout. このため,予測壁面境界ベクトルのピーク検出のみを行い,検出したピークの高さを直接サンプリングしてレイアウトを再構築する。 0.84
While this saves an amount of processing, the postprocessing scheme used by HorizonNet improves the results when applied to Structured3D’s test set. これにより処理量が削減されるが、horizonnetが使用するポストプロセッシングスキームは、structured3dのテストセットに適用される結果を改善する。 0.74
On the other hand, our model produces accurate layout corner estimates without any postprocessing. 一方,本モデルはポストプロセッシングを行わずに正確なレイアウトコーナー推定を生成する。 0.71
While SSC outperforms HorizonNet in the established metrics, HorizonNet offers higher accuracy in the junction and wireframe metrics. SSCは確立したメトリクスでHorizonNetより優れているが、HorizonNetはジャンクションとワイヤフレームのメトリクスで高い精度を提供する。 0.49
This is also the case for the cross-validation experiment that we present in Table 3. これは表3に示したクロスバリデーション実験のケースでもある。 0.62
We test the models trained using Structured3D on the test set of Kujiale, using only the full rooms. 全室のみを使用して,kujialeのテストセットでstructured3dを使ってトレーニングしたモデルをテストした。 0.73
The difference is this setting is that the single-shot variant of HorizonNet provides more accurate layout estimates than the postprocessed one. この設定の違いは、シングルショットのHorizonNetは、後処理のものよりも正確なレイアウト推定を提供する点である。
訳抜け防止モード: この設定の違いは HorizonNetのシングルショット版は、後処理のものよりも正確なレイアウト推定を提供する。
0.78
This exposes the weakness of postprocessing approaches, which require empiric or heuristic tuning. これは経験的またはヒューリスティックなチューニングを必要とするポストプロセッシングアプローチの弱点を明らかにする。 0.57
Nonetheless, this HorizonNet model is trained for general layout estimation, and the performance deviation might be related to this extra trait. それにもかかわらず、このHorizonNetモデルは一般的なレイアウト推定のために訓練されており、パフォーマンスの偏差はこの余分な特性に関連している可能性があります。 0.46
Qualitative results for our endto-end model for both synthetic datasets are presented in Figure 7. 両方の合成データセットのエンドツーエンドモデルの定性的な結果を図7に示します。 0.76
4.5. Ablation Study 4.5. アブレーション研究 0.70
We perform an ablation study across all datasets. 我々は全データセットにまたがってアブレーション研究を行う。 0.63
Tables 4, 2 and 5 present the results on the real and synthetic datasets7. 表4、2、5は、実および合成データセット7に結果を提示する。 0.74
Our baseline is the model as presented in Section 3.3 without the end-to-end Manhattan alignment homography module (Section 3.3.3), but with the quasiManhattan alignment (Section 3.3.2) offered by aligning the longitude of top and bottom corners. 私たちのベースラインは、エンドツーエンドのマンハッタンアライメントホモグラフィーモジュール(Section 3.3.3)のないセクション3.3に示すモデルですが、上部と下部の角の経度を揃えて提供される準マンハッタンアライメント(Section 3.3.2)です。 0.72
Apart from adding the end-to-end Manhattan alignment module, we also ablate the effect of the geodesic heatmap and loss (Section 3.2), the SH model adaptation (spherical padding, pre- エンド・ツー・エンドのマンハッタンアライメントモジュールの追加とは別に、測地線熱マップと損失の影響(第3部)、SHモデル適応(球面パディング、プレプレ-)も緩和する。 0.66
6Best three performances are denoted with bold red, orange and yellow. 6大胆な赤、オレンジ、黄色の3つのパフォーマンスを表現。 0.72
7Our supplement offers results for each of the real datasets. 7our supplementは、実際のデータセットごとに結果を提供する。 0.59
9 9 0.85
英語(論文から抽出)日本語訳スコア
Figure 7: Qualitative results on the Structured3D (top) and Kujiale (bottom) datasets. 図7: Structured3D(top)とKujiale(bottom)データセットの定性的な結果。 0.85
Same scheme as Figure 6 applies. 図6と同様のスキームが適用される。 0.66
10 10 0.85
英語(論文から抽出)日本語訳スコア
Table 1: Quantitative results on the real domain datasets for each model variant. 表1: 各モデル変種に対する実際のドメインデータセットの定量的結果。 0.88
Name Model Variant 名称 モデルバリアント 0.70
Parameters ↓ LayoutNet v2 ResNet-18 LayoutNet v2 ResNet-34 LayoutNet v2 ResNet-50 DuLa-Net v2 ResNet-18 DuLa-Net v2 ResNet-34 DuLa-Net v2 ResNet-50 HorizonNet ResNet-18 ResNet-34 HorizonNet HorizonNet ResNet-50 パラメータ。 LayoutNet v2 ResNet-34 ResNet v2 ResNet v2 ResNet-18 DuLa-Net v2 ResNet-34 ResNet v2 ResNet v2 ResNet-50 HorizonNet ResNet-18 ResNet-34 HorizonNet ResNet-50 0.49
SSC HG-3 15.57M 25.68M 91.50M 25.64M 45.86M 57.38M 23.49M 33.59M 81.57M 6.35M SSC HG-3 15.57M 25.68M 91.50M 25.64M 45.86M 57.38M 23.49M 33.59M 81.57M 6.35M 0.58
Stanford2D3D スタンフォード2D3D 0.31
Real (Combined) Real (複数形 Reals) 0.69
PanoContext IoU3D ↑ PanoContext IoU3D。 0.65
PE ↓ IoU3D ↑ PE! IoU3Dとは? 0.38
CE ↓ CE ↓ 0.77% 83.53% 2.30% 0.71% 0.71% 84.17% 2.04% 0.67% CE ↓ CE ↓ 0.77% 83.53% 2.30% 0.71% 0.71% 84.17% 2.04% 0.67% 0.67
IoU3D ↑ PE ↓ CE ↓ PE ↓ 83.83% 2.11% 0.65% 84.13% 1.92% 84.60% 1.92% 0.63% 85.02% 1.79% 0.75% 82.44% 2.22% 0.83% 82.66% 2.59% 0.79% 82.55% 2.41% 0.83% 82.43% 2.55% 0.74% 84.93% 2.56% 0.79% 83.68% 2.56% 2.49% 0.82% 83.41% 2.54% 0.66% 86.45% 0.81% 83.77% 2.43% 0.67% 86.6% 2.46% 0.83% 80.27% 2.44% 0.82% 80.59% 2.72% 0.83% 80.43% 2.58% 0.76% 81.30% 2.22% 0.78% 80.44% 2.65% 0.77% 80.87% 2.44% 0.74% 0.72% 82.68% 2.22% 0.63% 83.97% 1.78% 0.51% 87.80% 1.62% 0.57% 85.89% 1.70% IoU3D ↑ PE ↓ CE ↓ PE ↓ 83.83% 2.11% 0.65% 84.13% 1.92% 84.60% 1.92% 0.63% 85.02% 1.79% 0.75% 82.44% 2.22% 0.83% 82.66% 2.59% 0.79% 82.55% 2.41% 0.83% 82.43% 2.55% 0.74% 84.93% 2.56% 0.79% 83.68% 2.56% 2.49% 0.82% 83.41% 2.54% 0.66% 86.45% 0.81% 83.77% 2.43% 0.67% 86.6% 2.46% 0.83% 80.27% 2.44% 0.82% 80.59% 2.72% 0.83% 80.43% 2.58% 0.76% 81.30% 2.22% 0.78% 80.44% 2.65% 0.77% 80.87% 2.44% 0.74% 0.72% 82.68% 2.22% 0.63% 83.97% 1.78% 0.51% 87.80% 1.62% 0.57% 85.89% 1.70% 0.60
2.43% 0.74% 84.93% 2.48% 0.74% 85.19% 2.43% 0.74% 84.93% 2.48% 0.74% 85.19% 0.61
82.63% 2.17% 0.69% 82.72% 2.27% 82.63% 2.17% 0.69% 82.72% 2.27% 0.62
Table 2: Quantitative results and ablation on the synthetic Structured3D synthetic dataset. 表2:合成Structud3D合成データセットの定量結果とアブレーション。 0.85
Variant Single-Shot Postprocessed 変種 単発ポストプロセッシング 0.59
Quasi-Manhattan w/ Homography (joint) 準マンハッタン w/homography (joint) 0.73
w/o Geodesics w/o Model Adaptation w/o Quasi-Manhattan 地質学 w/o Model Adaptation w/o Quasi-Manhattan 0.51
PE ↓ IoU3D ↑ PE! IoU3Dとは? 0.38
IoU2D ↑ RMSE ↓ CE ↓ J5 ↑ 0.57% 93.10% 91.17% 1.53% 78.20% 0.0712 0.75% 93.49% 91.82% 1.46% 78.61% 91.64% 95.75% 56.67% 78.22% 87.57% 0.0756 0.39% 93.97% 92.00% 1.25% 74.22% 86.29% 0.0667 0.0626 0.40% 94.27% 92.33% 1.26% 75.35% 90.90% 95.74% 85.68% 0.39% 93.94% 92.03% 1.25% 0.0671 73.20% 84.98% 0.0800 0.45% 93.15% 91.04% 1.44% 71.10% 88.19% 94.35% 43.01% 69.59% 82.74% 0.39% 93.89% 92.00% 1.23% 73.43% 90.42% 95.63% 47.38% 72.63% 85.00% 0.0651 IoU2Dとは? RMSE ↓ CE ↓ J5 ↑ 0.57% 93.10% 91.17% 1.53% 78.20% 0.0712 0.75% 93.49% 91.82% 1.46% 78.61% 91.64% 95.75% 56.67% 78.22% 87.57% 0.0756 0.39% 93.97% 92.00% 1.25% 74.22% 86.29% 0.0667 0.0626 0.40% 94.27% 92.33% 1.26% 75.35% 90.90% 95.74% 85.68% 0.39% 93.94% 92.03% 1.25% 0.0671 73.20% 84.98% 0.0800 0.45% 93.15% 91.04% 1.44% 71.10% 88.19% 94.35% 43.01% 69.59% 82.74% 0.39% 93.89% 92.00% 1.23% 73.43% 90.42% 95.63% 47.38% 72.63% 85.00% 0.0651 0.46
J10 ↑ W15 ↑ 90.69% 95.09% 56.67% 77.50% 86.53% J10, W15, 90.69% 95.09% 56.67% 77.50% 86.53% 0.59
75.18% 90.96% 95.82% 49.27% 75.18% 90.96% 95.82% 49.27% 0.62
73.95% 90.14% 95.35% 49.26% 73.95% 90.14% 95.35% 49.26% 0.62
48.16% 74.35% 48.16% 74.35% 0.65
W10 ↑ J15 ↑ W5 ↑ W10。 J15。 W5。 0.61
Table 3: Cross-validation results on the Kujiale dataset using the Structured3D trained model. 表3: structured3d trainingモデルを用いたkujialeデータセットのクロスバリデーション結果。 0.79
Variant Single-Shot Postprocessed 変種 単発ポストプロセッシング 0.59
Quasi-Manhattan w/ Homography (joint) 準マンハッタン w/homography (joint) 0.73
IoU3D ↑ IoU2D ↑ IoU3Dとは? IoU2D! 0.43
CE ↓ RMSE ↓ 0.61% 91.68% 89.53% 1.83% 72.27% 87.91% 94.09% 46.27% 71.30% 81.88% 0.0899 86.59% 92.95% 45.45% 69.67% 81.39% 0.0967 1.04% 90.97% 88.96% 1.82% 71.18% 0.45% 92.83% 90.55% 1.46% 70.95% 86.86% 93.41% 41.55% 68.58% 81.88% 0.0811 0.42% 93.37% 91.21% 1.38% 71.82% 87.36% 94.86% 44.12% 70.73% 82.06% 0.0706 CE ↓ RMSE ↓ 0.61% 91.68% 89.53% 1.83% 72.27% 87.91% 94.09% 46.27% 71.30% 81.88% 0.0899 86.59% 92.95% 45.45% 69.67% 81.39% 0.0967 1.04% 90.97% 88.96% 1.82% 71.18% 0.45% 92.83% 90.55% 1.46% 70.95% 86.86% 93.41% 41.55% 68.58% 81.88% 0.0811 0.42% 93.37% 91.21% 1.38% 71.82% 87.36% 94.86% 44.12% 70.73% 82.06% 0.0706 0.59
W15 ↑ W10 ↑ W15年。 W10。 0.53
J10 ↑ J15 ↑ W5 ↑ J10。 J15。 W5。 0.61
PE ↓ J5 ↑ Model PE! J5。 モデル 0.61
HNet SSC HG-3 HNet SSC HG-3 0.78
Model HNet SSC HG-3 モデル HNet SSC HG-3 0.78
δ1 ↑ 97.84% 98.58% 98.80% 98.76% 98.71% 98.20% 98.73% δ1 ↑ 97.84% 98.58% 98.80% 98.76% 98.71% 98.20% 98.73% 0.62
δ1 ↑ 98.02% 98.29% 98.40% 98.45% δ1 ↑ 98.02% 98.29% 98.40% 98.45% 0.65
activated residual blocks and anti-aliased maxpooling - Section 3.3.1), and the quasi-Manhattan alignment itself by training a model with unrestricted, traditional (i.e.not spherical as presented in Section 3.1) CoM calculation for each corner. 活性化された残留ブロックとアンチエイリアスドマックスプール - セクション3.3.1) と準マンハッタンアライメントは、各コーナーに制限のない伝統的な(つまり、セクション3.1) com計算のモデルを訓練することでそれ自体をアライメントする。 0.65
These offer a number of insights. これらは多くの洞察を提供する。 0.64
While the end-toend model provides the more robust performance across all datasets, its performance is uncontested in the IoU and depth related metrics. エンドツーエンドモデルはすべてのデータセットでより堅牢なパフォーマンスを提供しますが、そのパフォーマンスはIoUと深さ関連のメトリクスでテストされていません。 0.61
However, on the remaining projective metrics, the unrestricted coordinate regression approaches usually perform better. しかし、残りの射影メトリックでは、制限のない座標回帰アプローチは、通常より良く機能する。 0.57
This is reasonable as the homography fits a cuboid on the predictions, while the un/semi-constrained approaches can freely localise the corners, even though at the expense of unnatural/Manhattan outputs, which manifests at an IoU3D drop. IoU3Dドロップで現れる不自然な/マンハッタンの出力を犠牲にしても、非半制約アプローチはコーナーを自由にローカライズすることができますが、ホモグラフィーが予測に立方体に適合するので、これは合理的です。 0.54
Overall, we observe that the additional of explicit Manhattan constraints (quasi and homography-based) offer increased performance compared to directly regressing the corners. 全体として、マンハッタンの明示的な制約(準およびホモグラフィーベースの)の追加は、コーナーを直接回帰するよりもパフォーマンスを高めることを観察します。 0.61
The same applies to spherical (periodic CoM and geodesics) and model adaptation that consistently increase performance. 球面(周期的CoMと測地学)やモデル適応にも適用され、一貫して性能が向上する。 0.66
We also ablate the three approaches (floor/ceiling/joint) that use different starting coordinates for the homography estimation in Tables 4 and 5. また、表4と表5のホモグラフィ推定に異なる出発座標を用いる3つのアプローチ(床/床/ジョイント)を省略する。 0.69
We find that the joint approach 共同アプローチが判明しました。 0.58
produces higher quality results, as it enforces both the top and bottom predictions to be consistent between them. 上位と下位の両方の予測を一貫性を持たせることによって、高品質な結果を生み出す。 0.69
This way, the cuboid misalignment errors are backpropagated to all corner estimates through the homography. このように、立方体不整合誤差はホモグラフィーを通じてすべてのコーナー推定にバックプロパゲートされる。 0.55
5. Conclusion Our work has focused on keypoint estimation on the sphere and in particular on layout corner estimation. 5. 結論 本研究では,球面上のキーポイント推定,特にレイアウトコーナー推定に着目した。 0.72
Through coordinate regression we integrate explicit constraints in our model. 座標回帰を通じて、モデルに明示的な制約を統合する。 0.57
Moreover, while we have also shown that end-to-end single-shot layout estimation is possible, our approach is rigid as it is based on a frequent and logical assumption, that the underlying room is, or can be approximated by, a cuboid. さらに, エンド・ツー・エンドの単発レイアウト推定も可能であることを示したが, 基礎となる部屋がキューブイドである, もしくは近似できるという, 頻繁かつ論理的な仮定に基づくアプローチは厳格である。 0.79
Nonetheless, this rigidity comes from the structured predictions that CNN enforce, with the number of heatmaps that will be predicted being strictly defined at the design phase. にもかかわらず、この剛性はCNNが強制する構造的予測から来ており、設計段階で厳密に定義されると予測されるヒートマップの数である。 0.70
Future work should try to address this limitation to fully exploit the potential that single-shot approaches offer, mainly stemming from end-to-end supervision. 将来の作業は、主にエンドツーエンドの監督から、シングルショットアプローチが提供する可能性を最大限に活用するために、この制限に対処する必要があります。 0.50
Finally, as with all prior layout estimation works, predictions are up to a scale, which hinders applicability. 最後に、すべての以前のレイアウト推定作業と同様に、予測はスケールまでであり、適用可能性を妨げる。 0.68
Even so, structured scene layout estimation is an important task that can even be used as an intermediate task to improve それでも、構造化されたシーンレイアウトの推定は、改善のための中間タスクとしても使用できる重要なタスクです。 0.66
11 11 0.85
英語(論文から抽出)日本語訳スコア
Table 4: Ablation study on the real dataset. 表4:実際のデータセットに関するアブレーション研究。 0.78
Variant Quasi-Manhattan 変種 準マンハッタン 0.59
w/ Homography (joint) w/ Homography (floor) w/ Homography (ceil) w/homography (joint) w/homography (floor) w/homography (ceil) 0.88
w/o Geodesics w/o Model Adaptation w/o Quasi-Manhattan 地質学 w/o Model Adaptation w/o Quasi-Manhattan 0.51
Variant Quasi-Manhattan 変種 準マンハッタン 0.59
w/ Homography (joint) w/ Homography (floor) w/ Homography (ceil) w/homography (joint) w/homography (floor) w/homography (ceil) 0.88
w/o Geodesics w/o Model Adaptation w/o Quasi-Manhattan 地質学 w/o Model Adaptation w/o Quasi-Manhattan 0.51
PE ↓ J5 ↑ IoU3D ↑ PE! J5。 IoU3D! 0.52
IoU2D ↑ CE ↓ RMSE ↓ 0.55% 87.90% 85.02% 1.74% 61.54% 84.04% 91.02% 30.61% 57.97% 74.93% 0.1734 0.1557 0.57% 88.39% 85.89% 1.70% 55.01% 80.62% 91.75% 20.98% 52.63% 71.07% 0.68% 88.25% 85.97% 1.91% 47.01% 76.66% 88.65% 16.30% 43.11% 63.24% 0.1591 0.63% 87.63% 85.25% 1.88% 52.79% 81.58% 91.43% 69.73% 0.1671 0.2233 26.33% 53.39% 0.79% 84.40% 81.08% 2.31% 33.78% 70.05% 86.80% 0.2033 0.65% 86.60% 82.94% 1.98% 55.41% 50.21% 66.49% 54.15% 80.21% 91.00% 16.26% 50.04% 69.62% 0.61% 0.1874 IoU2D! CE ↓ RMSE ↓ 0.55% 87.90% 85.02% 1.74% 61.54% 84.04% 91.02% 30.61% 57.97% 74.93% 0.1734 0.1557 0.57% 88.39% 85.89% 1.70% 55.01% 80.62% 91.75% 20.98% 52.63% 71.07% 0.68% 88.25% 85.97% 1.91% 47.01% 76.66% 88.65% 16.30% 43.11% 63.24% 0.1591 0.63% 87.63% 85.25% 1.88% 52.79% 81.58% 91.43% 69.73% 0.1671 0.2233 26.33% 53.39% 0.79% 84.40% 81.08% 2.31% 33.78% 70.05% 86.80% 0.2033 0.65% 86.60% 82.94% 1.98% 55.41% 50.21% 66.49% 54.15% 80.21% 91.00% 16.26% 50.04% 69.62% 0.61% 0.1874 0.56
18.50% 51.64% 4.66% 78.16% 88.55% 22.73% 18.50% 51.64% 4.66% 78.16% 88.55% 22.73% 0.61
87.24% 84.09% 1.81% 87.24% 84.09% 1.81% 0.63
W10 ↑ W15 ↑ W10。 W15年。 0.53
J15 ↑ J10 ↑ W5 ↑ J15。 J10。 W5。 0.61
Table 5: Ablation study on the synthetic Kujiale dataset. 表5: 合成Kujialeデータセットのアブレーション研究。 0.80
PE ↓ CE ↓ IoU2D ↑ 0.53% 91.13% 0.53% 91.40% 89.01% 1.70% 63.36% 82.55% 90.55% 35.91% 61.79% 74.24% 0.57% 91.28% 88.72% 1.79% 62.09% 80.55% 89.68% 34.24% 58.97% 72.42% 0.56% 72.48% 1.78% 61.68% 80.82% 89.59% 35.55% 60.42% 90.92% 88.55% 0.59% 90.81% 88.31% 1.81% 59.55% 79.36% 89.64% 27.64% 56.39% 71.24% 0.59% 90.42% 87.52% 1.82% 61.36% 79.14% 88.68% 29.61% 57.27% 70.82% 0.54% 33.03% 59.33% 73.36% PE! CE ↓ IoU2D ↑ 0.53% 91.13% 0.53% 91.40% 89.01% 1.70% 63.36% 82.55% 90.55% 35.91% 61.79% 74.24% 0.57% 91.28% 88.72% 1.79% 62.09% 80.55% 89.68% 34.24% 58.97% 72.42% 0.56% 72.48% 1.78% 61.68% 80.82% 89.59% 35.55% 60.42% 90.92% 88.55% 0.59% 90.81% 88.31% 1.81% 59.55% 79.36% 89.64% 27.64% 56.39% 71.24% 0.59% 90.42% 87.52% 1.82% 61.36% 79.14% 88.68% 29.61% 57.27% 70.82% 0.54% 33.03% 59.33% 73.36% 0.51
IoU3D ↑ RMSE ↓ 88.43% 1.74% 65.00% 82.14% 90.50% 37.27% 62.30% 74.91% 0.0979 0.0872 0.0945 0.0925 0.0998 0.1026 0.0962 IoU3D ↑ RMSE ↓ 88.43% 1.74% 65.00% 82.14% 90.50% 37.27% 62.30% 74.91% 0.0979 0.0872 0.0945 0.0925 0.0998 0.1026 0.0962 0.55
90.92% 88.42% 1.73% 62.59% 80.91% 90.36% 90.92% 88.42% 1.73% 62.59% 80.91% 90.36% 0.61
W10 ↑ W15 ↑ W10。 W15年。 0.53
J15 ↑ J10 ↑ W5 ↑ J15。 J10。 W5。 0.61
J5 ↑ δ1 ↑ 96.14% 97.93% 97.52% 97.64% 95.48% 95.61% 96.31% J5。 δ1 ↑ 96.14% 97.93% 97.52% 97.64% 95.48% 95.61% 96.31% 0.62
δ1 ↑ 96.99% 97.09% 97.44% 97.13% 96.92% 96.65% 97.07% δ1 ↑ 96.99% 97.09% 97.44% 97.13% 96.92% 96.65% 97.07% 0.62
other tasks, as shown in [28]. 28]に示すように、他のタスク。 0.69
With metric scale inference, it has the potential for significant interplay with other 3D vision tasks like depth or surface estimation. メートル法スケール推論では、深度や表面推定といった他の3dビジョンタスクと大きな相互作用をする可能性がある。 0.72
Supplement Supplementary material including additional ablation experiments and qualitative results are appended after the references. 補足 追加のアブレーション実験や定性的結果を含む補助材料を参考に付加する。 0.62
Acknowledgements This work was supported by the EC funded H2020 認識 この作業はec出資のh2020によって支援された。 0.51
project ATLANTIS [GA 951900]. ATLANTIS [GA 951900] プロジェクト。 0.81
References [1] Iro Armeni, Sasha Sax, Amir R Zamir, and Silvio Savarese. 参照 [1] Iro Armeni、Sasha Sax、Amir R Zamir、Silvio Savarese。 0.68
Joint 2d-3d-semantic data for indoor scene understanding. 室内シーン理解のためのジョイント2d-3d-semantic data 0.57
arXiv preprint arXiv:1702.01105, 2017. arXiv preprint arXiv:1702.01105, 2017 0.80
[2] Alexander Buslaev, Vladimir I Iglovikov, Eugene Khvedchenya, Alex Parinov, Mikhail Druzhinin, and Alexandr A Kalinin. [2]Alexander Buslaev、Vladimir I Iglovikov、Eugene Khvedchenya、Alex Parinov、Mikhail Druzhinin、Alexander A Kalinin。 0.66
Albumentations: fast and flexible image augmentations. アルバム: 高速でフレキシブルな画像拡張。 0.67
Information, 11(2):125, 2020. 情報、11(2):125、2020。 0.75
[3] Angel Chang, Angela Dai, Thomas Funkhouser, Maciej Halber, Matthias Niebner, Manolis Savva, Shuran Song, Andy Zeng, and Yinda Zhang. 3] Angel Chang、Angela Dai、Thomas Funkhouser、Maciej Halber、Matthias Niebner、Manolis Savva、Shuran Song、Andy Zeng、Yinda Zhang。
訳抜け防止モード: [3]エンジェル・チャン、アンジェラ・ダイ、トーマス・ファンクハウス。 Maciej Halber, Matthias Niebner, Manolis Savva, Shuran Song Andy Zeng、Yinda Zhang。
0.71
Matterport3d: Learning from rgbIn 7th IEEE International d data in indoor environments. matterport3d: rgbin 7th ieee international d data in indoor environmentsから学ぶ。 0.81
Conference on 3D Vision (3DV), pages 667–676. 3Dビジョン会議(3DV) 667-676頁。 0.77
Institute of Electrical and Electronics Engineers Inc., 2018. 電気電子工学研究所、2018年。 0.60
[4] Hsien-Tzu Cheng, Chun-Hung Chao, Jin-Dong Dong, HaoKai Wen, Tyng-Luh Liu, and Min Sun. 4]Hsien-Tzu Cheng、Chun-Hung Chao、Jin-Dong Dong、HaoKai Wen、Tyng-Luh Liu、Min Sun。 0.77
Cube padding for weakly-supervised saliency prediction in 360 videos. 360ビデオで弱監督サリエンシー予測のためのキューブパディング。 0.66
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1420–1429, 2018. コンピュータビジョンとパターン認識に関するIEEE会議の進行の中で、ページ1420-1429、2018。 0.76
[5] Taco S Cohen, Mario Geiger, Jonas K¨ohler, and Max In International Conference on 5]タコ・s・コーエン,マリオ・ガイガー,ジョナス・k・ショラー,マックス国際会議 0.63
Welling. Spherical cnns. 井戸。 球形cnn。 0.52
Learning Representations, 2018. 学習表現、2018年。 0.67
[6] Benjamin Coors, Alexandru Paul Condurache, and Andreas Geiger. 6] Benjamin Coors、Alexandru Paul Condurache、Andreas Geiger。 0.64
Spherenet: Learning spherical representations for detection and classification in omnidirectional images. Spherenet: 全方位画像の検出と分類のための球面表現の学習。 0.79
In Proceedings of the European Conference on Computer Vision (ECCV), pages 518–533, 2018. Proceedings of the European Conference on Computer Vision (ECCV) で、2018年518-533頁。 0.81
[7] Thiago LT da Silveira and Claudio R Jung. [7]Thiago LT da Silveira and Claudio R Jung 0.66
Dense 3d scene reconstruction from multiple spherical images for 3-dof+ vr In 2019 IEEE Conference on Virtual Reality applications. 3dof+ vr用の複数の球面イメージからのDense 3dシーンの再構築 2019年、IEEE Conference on Virtual Reality Applications。 0.69
and 3D User Interfaces (VR), pages 9–18. 3D User Interfaces (VR)、9-18ページ。 0.80
IEEE, 2019. IEEE、2019年。 0.86
[8] Micha¨el Defferrard, Nathana¨el Perraudin, Tomasz Kacprzak, and Raphael Sgier. 8]ミカ・イエル・デフファーラルド、ナサニヤ・イエル・ペラウディン、トマシュ・カクプルザーク、ラファエル・スギエ。 0.27
Deepsphere: towards an equivariant graph-based spherical cnn. deepsphere: 同変グラフベースの球面cnnに向けて。 0.66
In ICLR Workshop on Representation Learning on Graphs and Manifolds, 2019. In ICLR Workshop on Representation Learning on Graphs and Manifolds, 2019。 0.78
[9] Marc Eder, True Price, Thanh Vu, Akash Bapat, and JanarXiv preprint 9] Marc Eder, True Price, Thanh Vu, Akash Bapat, JanarXiv preprint 0.72
Michael Frahm. Mapped convolutions. マイケル・フラム。 畳み込みマップ。 0.53
arXiv:1906.11096, 2019. arXiv:1906.11096, 2019 0.71
[10] David Eigen, Christian Puhrsch, and Rob Fergus. 10] David Eigen, Christian Puhrsch, Rob Fergus. 0.68
Depth map prediction from a single image using a multi-scale deep network. マルチスケール深層ネットワークを用いた単一画像からの深度マップ予測 0.81
In Advances in neural information processing systems, pages 2366–2374, 2014. 神経情報処理システムの進歩』では、2366–2374, 2014。 0.83
[11] Carlos Esteves, Christine Allen-Blanchette, Ameesh Makadia, and Kostas Daniilidis. 11] Carlos Esteves、Christine Allen-Blanchette、Ameesh Makadia、Kostas Daniilidis。 0.72
Learning so(3) equivariant representations with spherical cnns. 球面cnnを用いたso(3)同値表現の学習 0.68
In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 2018年9月、欧州コンピュータビジョン会議(ECCV)に参加。 0.66
[12] WA Falcon. WA Falcon (複数形 Falcons) 0.56
Pytorch lightning. ピトーチ・ライトニング 0.53
GitHub. Note: GitHub。 注: 0.74
https://github.com/P yTorchLightning/pyto rch-lightning, 2019. https://github.com/P yTorchLightning/pyto rch-lightning, 2019。 0.48
[13] Zhen-Hua Feng, Josef Kittler, Muhammad Awais, Patrik Huber, and Xiao-Jun Wu. [13]Zhen-Hua Feng, Josef Kittler, Muhammad Awais, Patrik Huber, Xiao-Jun Wu。 0.88
Wing loss for robust facial landmark localisation with convolutional neural networks. 畳み込みニューラルネットワークによるロバストな顔のランドマーク定位のための翼損失 0.72
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2235–2245, 2018. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、ページ2235-2245、2018。 0.77
[14] Clara Fernandez-Labrador, Jos´e F´acil, Alejandro Perez-Yus, C´edric Demonceaux, and Jose Guerrero. 14] Clara Fernandez-Labrador, Jos ́e F ́acil, Alejandro Perez-Yus, C ́edric Demonceaux, Jose Guerrero 0.80
Panoroom: From the sphere to the 3d layout. Panoroom: 球面から3dレイアウトまで。 0.62
In ECCV 2018 Workshops, 2018. ECCV 2018 Workshops, 2018に参加。 0.88
[15] Clara Fernandez-Labrador, Jose M Facil, Alejandro PerezYus, C´edric Demonceaux, Javier Civera, and Jose J Guer- [15] Clara Fernandez-Labrador, Jose M Facil, Alejandro PerezYus, C'edric Demonceaux, Javier Civera, Jose J Guer 0.93
12 12 0.85
英語(論文から抽出)日本語訳スコア
rero. from 360 images. レロ 360枚の画像から 0.52
5(2):1255–1262, 2020. 5(2):1255–1262, 2020. 0.88
Corners for layout: End-to-end layout recovery IEEE Robotics and Automation Letters, レイアウトのためのコーナー:エンドツーエンドのレイアウトリカバリ IEEE Robotics and Automation Letters 0.79
[16] Clara Fernandez-Labrador, Alejandro Perez-Yus, Gonzalo Lopez-Nicolas, and Jose J Guerrero. 16] Clara Fernandez-Labrador, Alejandro Perez-Yus, Gonzalo Lopez-Nicolas, Jose J Guerrero。 0.90
Layouts from panoramic images with geometry and deep learning. 幾何学とディープラーニングを用いたパノラマ画像からのレイアウト。 0.64
IEEE Robotics and Automation Letters, 3(4):3153–3160, 2018. IEEE Robotics and Automation Letters, 3(4):3153–3160, 2018 0.93
[17] Kosuke Fukano, Yoshihiko Mochizuki, Satoshi 【17】深野幸介、望月義彦、佐藤 0.51
Iizuka, Edgar Simo-Serra, Akihiro Sugimoto, and Hiroshi Ishikawa. 飯塚、エドガー・シモセラ、杉本明弘、石川博。 0.56
Room reconstruction from a single spherical image by In 2016 23rd Internahigher-order energy minimization. 2016年の第23次高次エネルギー最小化による単一球面画像からの室内再構成 0.76
tional Conference on Pattern Recognition (ICPR), pages 1768–1773. 99al Conference on Pattern Recognition (ICPR) 1768-1773頁。 0.75
IEEE, 2016. 2016年、IEEE。 0.61
[18] Richard Hartley and Andrew Zisserman. 18] Richard HartleyとAndrew Zisserman。 0.72
Multiple view geometry in computer vision. コンピュータビジョンにおける複数ビュー幾何学 0.80
Cambridge university press, 2003. ケンブリッジ大学出版局、2003年。 0.66
[19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. [19]カイミング彼、Xiangyu Zhang、Shaoqingren、およびJian Sun。 0.62
Delving deep into rectifiers: Surpassing human-level perforIn Proceedings of the mance on imagenet classification. 整流器に深く入り込む: イメージネット分類に基づくヒトレベルのPerforIn Proceedings of the mance 0.82
IEEE international conference on computer vision, pages 1026–1034, 2015. IEEE International Conference on computer vision, page 1026–1034, 2015 0.88
[20] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 20] Kaming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.55
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. コンピュータビジョンとパターン認識に関するIEEEカンファレンスProceedings of the IEEE conference, page 770–778, 2016 0.85
[21] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. [21]開明,Xiangyu Zhang,Shaoqing Ren,Jian Sun。 0.56
Identity mappings in deep residual networks. 深い残存ネットワークにおけるアイデンティティマッピング。 0.78
In European conference on computer vision, pages 630–645. コンピュータビジョンに関する欧州会議では、630-645ページ。 0.74
Springer, 2016. スプリンガー、2016年。 0.60
[22] Sepp Hochreiter and J¨urgen Schmidhuber. [22]Sepp Hochreiter氏とJ surgen Schmidhuber氏。 0.79
Long short-term memory. 長期的・短期的 記憶だ 0.59
Neural computation, 9(8):1735–1780, 1997. 神経計算 9(8):1735–1780, 1997。 0.77
[23] Jinwoong Jung, Beomseok Kim, Joon-Young Lee, Byungmoon Kim, and Seungyong Lee. [23] Jinwoong Jung、Beomseok Kim、Joon-Young Lee、Byungmoon Kim、Seungyong Lee。 0.81
Robust upright adjustment of 360 spherical panoramas. 360球面パノラマの堅牢な直立調整。 0.72
The Visual Computer, 33(68):737–747, 2017. The Visual Computer, 33(68):737–747, 2017 0.91
[24] Raehyuk Jung, Aiden Seuna Joon Lee, Amirsaman Ashtari, and Jean-Charles Bazin. 24] Raehyuk Jung、Aiden Seuna Joon Lee、Amirsaman Ashtari、Jean-Charles Bazin。 0.75
Deep360up: A deep learning-based approach for automatic vr image upright adjustment. deep360up: ディープラーニングに基づく、vrイメージの自動アップライト調整のアプローチ。 0.69
In 2019 IEEE Conference on Virtual Reality and 3D User Interfaces (VR), pages 1–8. 2019年、IEEE Conference on Virtual Reality and 3D User Interfaces (VR)、1-8ページ。 0.84
IEEE, 2019. IEEE、2019年。 0.86
[25] Renata Khasanova and Pascal Frossard. He25] Renata Khasanova と Pascal Frossard。 0.78
Graph-based classification of omnidirectional images. 全方位画像のグラフベース分類 0.76
In Proceedings of the IEEE International Conference on Computer Vision Workshops, pages 869–878, 2017. IEEE International Conference on Computer Vision Workshops (英語) Proceedings of the IEEE International Conference on Computer Vision Workshops, page 869–878, 2017 0.68
[26] Diederik P Kingma and Jimmy Ba. [26] Diederik P KingmaとJimmy Ba。 0.80
Adam: A method for arXiv preprint arXiv:1412.6980, Adam: arXiv preprint arXiv:1412.6980, 0.89
stochastic optimization. 2014. 確率最適化。 2014. 0.74
[27] Chen-Yu Lee, Vijay Badrinarayanan, Tomasz Malisiewicz, and Andrew Rabinovich. [27]Chen-Yu Lee、Vijay Badrinarayanan、Tomasz Malisiewicz、Andrew Rabinovich。 0.62
Roomnet: End-to-end room layout estimation. Roomnet: エンドツーエンドの部屋レイアウト推定。 0.66
In Proceedings of the IEEE International Conference on Computer Vision, pages 4865–4874, 2017. In Proceedings of the IEEE International Conference on Computer Vision, page 4865–4874, 2017 0.86
[28] Jin Lei, Xu Yanyu, Zheng Jia, Zhang Junfei, Tang Rui, Xu Shugong, Yu Jingyi, and Gao Shenghua. [28] Jin Lei、Xu Yanyu、Zheng Jia、Zhang Junfei、Tang Rui、Xu Shugong、Yu Jingyi、Gao Shenghua。
訳抜け防止モード: [28 ]ジン・レイ、Xu Yanyu、Zheng Jia、 Zhang Junfei, Tang Rui, Xu Shugong, Yu Jingyi とGao Shenghuaは言う。
0.77
Geometric structure based and regularized depth estimation from 360o indoor imagery. 360o屋内画像からの幾何学的構造と正規化深度推定 0.81
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. コンピュータビジョンとパターン認識に関するIEEE会議(CVPR)の進行において、2020。 0.77
[29] Mingyang Li, Yi Zhou, Ming Meng, Yuehua Wang, and Zhong Zhou. [29] Mingyang Li、Yi Zhou、Ming Meng、Yuehua Wang、Zhong Zhou。 0.64
3d room reconstruction from a single fisheye 1匹の魚眼からの3Dルーム再建 0.66
image. Networks (IJCNN), pages 1–8. イメージ。 ネットワーク(IJCNN)、1-8ページ。 0.74
IEEE, 2019. IEEE、2019年。 0.86
In 2019 International Joint Conference on Neural 2019 International Joint Conference on Neural に参加して 0.81
[30] Niantao Liu, Bingxian Lin, Linwang Yuan, Guonian Lv, Zhaoyuan Yu, and Liangchen Zhou. [30] Niantao Liu、Bingxian Lin、Linwang Yuan、Guonian Lv、Zhaoyuan Yu、Liangchen Zhou。 0.68
An interactive indoor 3d reconstruction method based on conformal geometry algebra. 共形幾何学代数に基づく対話型屋内3次元再構成法 0.72
Advances in Applied Clifford Algebras, 28(4):73, 2018. 適用Clifford Algebrasの進歩、28(4):73、2018。 0.68
[31] Rosanne Liu, Joel Lehman, Piero Molino, Felipe Petroski Such, Eric Frank, Alex Sergeev, and Jason Yosinski. 31] Rosanne Liu、Joel Lehman、Piero Molino、Felipe Petroski Such、Eric Frank、Alex Sergeev、Jason Yosinski。
訳抜け防止モード: [31 ]ローザンヌ・リュー、ジョエル・リーマン、ピエロ・モリーノ Felipe Petroski氏、Eric Frank氏、Alex Sergeev氏、Jason Yosinski氏。
0.79
An intriguing failing of convolutional neural networks and the coordconv solution. 畳み込みニューラルネットワークとcoordconvソリューションの興味深い失敗。 0.59
In Advances in Neural Information Processing Systems, pages 9605–9616, 2018. In Advances in Neural Information Processing Systems, page 9605–9616, 2018 0.86
[32] Diogo C Luvizon, Hedi Tabia, and David Picard. 32] Diogo C Luvizon、Hedi Tabia、David Picard。 0.64
Human pose regression by combining indirect part detection and contextual information. 間接的部分検出と文脈情報を組み合わせた人間のポーズ回帰 0.70
Computers & Graphics, 85:15–22, 2019. Computers & Graphics, 85:15–22, 2019。 0.78
[33] Rafael Monroy, Sebastian Lutz, Tejo Chalasani, and Aljosa Smolic. 33] Rafael Monroy、Sebastian Lutz、Tejo Chalasani、Aljosa Smolic。 0.62
Salnet360: Saliency maps for omni-directional images with cnn. salnet360: cnnによる全方位画像のサリエンシーマップ。 0.77
Signal Processing: Image Communication, 69:26–34, 2018. Signal Processing: Image Communication, 69:26–34, 2018。 0.82
[34] Alejandro Newell, Kaiyu Yang, and Jia Deng. [34] Alejandro Newell、Kaiyu Yang、Jia Deng。 0.67
Stacked hourglass networks for human pose estimation. 人間のポーズ推定のための重畳時間ガラスネットワーク 0.63
In European conference on computer vision, pages 483–499. コンピュータビジョンに関する欧州会議で、483-499ページ。 0.79
Springer, 2016. スプリンガー、2016年。 0.60
[35] Aiden Nibali, Zhen He, Stuart Morgan, and Luke Prendergast. 35] Aiden Nibali、Zhen He、Stuart Morgan、Luke Prendergast。 0.63
Numerical coordinate regression with convolutional neural networks. 畳み込みニューラルネットワークを用いた数値座標回帰 0.75
arXiv preprint arXiv:1801.07372, 2018. arXiv preprint arXiv:1801.07372, 2018 0.79
[36] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer. [36] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, Adam Lerer。 0.78
Automatic differentiation in pytorch. パイトーチの自動分化。 0.60
2017. [37] Giovanni Pintore, Fabio Ganovelli, Ruggero Pintus, Roberto Scopigno, and Enrico Gobbetti. 2017. Giovanni Pintore氏、Fabio Ganovelli氏、Ruggero Pintus氏、Roberto Scopigno氏、Enrico Gobbetti氏。 0.74
3d floor plan recovery from overlapping spherical images. 重なり合う球面画像からの3次元フロアプランの復元 0.71
Computational Visual Media, 4(4):367–383, 2018. Computational Visual Media, 4(4):367–383, 2018。 0.89
[38] Giovanni Pintore, Fabio Ganovelli, Alberto Jaspe Villanueva, and Enrico Gobbetti. Giovanni Pintore氏、Fabio Ganovelli氏、Alberto Jaspe Villanueva氏、Enrico Gobbetti氏。 0.65
Automatic modeling of cluttered multi-room floor plans from panoramic images. パノラマ画像による散布したマルチルームフロアプランの自動モデル化 0.72
In Computer Graphics Forum, volume 38, pages 347–358. コンピュータグラフィックスフォーラムで、38巻、347-358ページ。 0.76
Wiley Online Library, 2019. Wiley Online Library、2019年。 0.84
[39] Giovanni Pintore, Valeria Garro, Fabio Ganovelli, Enrico Gobbetti, and Marco Agus. 39] Giovanni Pintore, Valeria Garro, Fabio Ganovelli, Enrico Gobbetti, Marco Agus。 0.71
Omnidirectional image capture on mobile devices for fast automatic generation of 2.5 d indoor maps. 2.5d屋内マップの高速自動生成のためのモバイルデバイス上の全方位画像キャプチャ 0.76
In 2016 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 1–9. 2016年、IEEE Winter Conference on Applications of Computer Vision (WACV)、1-9ページ。 0.85
IEEE, 2016. 2016年、IEEE。 0.61
[40] Giovanni Pintore, Claudio Mura, Fabio Ganovelli, Lizeth Fuentes-Perez, Renato Pajarola, and Enrico Gobbetti. 40] Giovanni Pintore, Claudio Mura, Fabio Ganovelli, Lizeth Fuentes-Perez, Renato Pajarola, Enrico Gobbetti。 0.81
Stateof-the-art in automatic 3d reconstruction of structured indoor environments. 構造化室内環境の自動3次元再構築の最新技術 0.65
STAR, 39(2), 2020. STAR, 39(2), 2020。 0.74
[41] Giovanni Pintore, Ruggero Pintus, Fabio Ganovelli, Roberto Scopigno, and Enrico Gobbetti. [41] Giovanni Pintore, Ruggero Pintus, Fabio Ganovelli, Roberto Scopigno, Enrico Gobbetti。 0.76
Recovering 3d existingconditions of indoor structures from spherical images. 球面画像からの室内構造物の3次元既存条件の復元 0.69
Computers & Graphics, 77:16–29, 2018. Computers & Graphics, 77:16–29, 2018。 0.77
[42] Peter H Sch¨onemann. ピーター・h・シュ=オネマンです 0.59
A generalized solution of the orthogonal procrustes problem. 直交procrustes問題の一般化解。 0.48
Psychometrika, 31(1):1–10, 1966. サイコメトリカ』 31(1):1–10, 1966年。 0.61
[43] Shuran Song and Thomas Funkhouser. [43]shuran songとthomas funkhouser。 0.66
Neural illumination: In ProceedLighting prediction for indoor environments. ニューラル照明 : 室内環境のプロセッドライティング予測 0.67
ings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6918–6926, 2019. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), page 6918–6926, 2019 を参照。 0.80
13 13 0.85
英語(論文から抽出)日本語訳スコア
[44] Shuran Song, Andy Zeng, Angel X Chang, Manolis Savva, Silvio Savarese, and Thomas Funkhouser. 44] Shuran Song、Andy Zeng、Angel X Chang、Manolis Savva、Silvio Savarese、Thomas Funkhouser。 0.68
Im2pano3d: Extrapolating 360 structure and semantics beyond the field of view. Im2pano3d: 視野を超えて360の構造とセマンティクスを外挿する。 0.63
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3847–3856, 2018. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), page 3847–3856, 2018。 0.85
[45] Yu-Chuan Su and Kristen Grauman. [45]Yu-Chuan SuとKristen Grauman。 0.85
Learning spherical conIn Advances volution for fast features from 360 imagery. 球面ConInの学習は360画像から高速機能のための進化を前進させる。 0.59
in Neural Information Processing Systems, pages 529–539, 2017. ニューラル情報処理システムでは、2017年529-539頁。 0.70
[46] Yu-Chuan Su and Kristen Grauman. [46]Yu-Chuan SuとKristen Grauman。 0.84
Kernel transformer netIn Proceedings works for compact spherical convolution. Kernel transformer netProceedingsはコンパクトな球状畳み込みに対応します。 0.72
of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9442–9451, 2019. IEEE Conference on Computer Vision and Pattern Recognition, page 9442–9451, 2019。 0.80
[47] Cheng Sun, Chi-Wei Hsiao, Min Sun, and Hwann-Tzong Chen. [47]Cheng Sun、Chi-Wei Hsiao、Min Sun、Hwann-Tzong Chen。 0.86
Horizonnet: Learning room layout with 1d representation and pano stretch data augmentation. Horizonnet: 1d表現とパノラマストレッチデータ拡張を備えた学習ルームレイアウト。 0.80
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1047–1056, 2019. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、2019年1047-1056ページ。 0.77
[48] Xiao Sun, Bin Xiao, Fangyin Wei, Shuang Liang, and Yichen Wei. [48] Xiao Sun、Bin Xiao、Fangyin Wei、Shuang Liang、Yichen Wei。 0.68
Integral human pose regression. 統合的な人間のポーズレグレッション。 0.60
In Proceedings of the European Conference on Computer Vision (ECCV), pages 529–545, 2018. Proceedings of the European Conference on Computer Vision (ECCV) 2018年5月5日閲覧。 0.72
[49] Yule Sun, Ang Lu, and Lu Yu. 49] Yule Sun、Ang Lu、Lu Yu。 0.63
Weighted-to-spherica llyuniform quality evaluation for omnidirectional video. 全方向ビデオの重み付き球面一様品質評価 0.67
IEEE signal processing letters, 24(9):1408–1412, 2017. IEEE信号処理文字 24(9):1408–1412, 2017 0.82
[50] Hajime Taira, Masatoshi Okutomi, Torsten Sattler, Mircea Cimpoi, Marc Pollefeys, Josef Sivic, Tomas Pajdla, and AkIndoor visual localization with dense ihiko Torii. 平治米、奥富正俊、トルステン・サトル、ミルセア・シンポニ、マルク・ポレフィーズ、ヨセフ・シビック、トマ・パジュドラ、Ak Indoor Visual Localization with dense Ihiko Torii。
訳抜け防止モード: [50]白目平、奥富正俊、トルステン・サトル。 Mircea Cimpoi, Marc Pollefeys, Josef Sivic, Tomas Pajdla 密集した鳥居以彦によるAkIndoor視覚像定位
0.64
In Proceedings of the IEEE matching and view synthesis. Proceedings of the IEEE matching and view synthesis(英語) 0.77
Conference on Computer Vision and Pattern Recognition, pages 7199–7209, 2018. Conference on Computer Vision and Pattern Recognition, page 7199–7209, 2018 0.86
Inloc: [51] Keisuke Tateno, Nassir Navab, and Federico Tombari. 所在地: [51]立野慶介、ナシル・ナバブ、フェデリコ・トムバリ。 0.48
Distortion-aware convolutional filters for dense prediction in panoramic images. パノラマ画像の高密度予測のための歪み認識畳み込みフィルタ 0.61
In Proceedings of the European Conference on Computer Vision (ECCV), pages 707–722, 2018. Proceedings of the European Conference on Computer Vision (ECCV) 2018年、707-722頁。 0.79
[52] C. Tensmeyer and T. Martinez. 52] C. TensmeyerとT. Martinez。 0.84
Robust keypoint detection. ロバストキーポイント検出。 0.66
In 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW), volume 5, pages 1–7, 2019. 2019年、ICDARW(International Conference on Document Analysis and Recognition Workshops)第5巻、1-7頁。 0.71
[53] Rafael Grompone Von Gioi, J´er´emie Jakubowicz, JeanMichel Morel, and Gregory Randall. 53] Rafael Grompone Von Gioi、J ́er ́emie Jakubowicz、JeanMichel Morel、Gregory Randall。 0.87
Lsd: a line segment detector. Lsd:ラインセグメント検出器。 0.74
Image Processing On Line, 2:35–55, 2012. Image Processing On Line, 2:35–55, 2012 0.83
[54] Tsun-Hsuan Wang, Hung-Jui Huang, Juan-Ting Lin, ChanWei Hu, Kuo-Hao Zeng, and Min Sun. 54] Tsun-Hsuan Wang、Hung-Jui Huang、Juan-Ting Lin、ChanWei Hu、Kuo-Hao Zeng、Min Sun。 0.79
Omnidirectional cnn for visual place recognition and navigation. 全方位cnnによる視覚位置認識とナビゲーション 0.67
In 2018 IEEE International Conference on Robotics and Automation (ICRA), pages 2341–2348. 2018年、IEEE International Conference on Robotics and Automation (ICRA)、2341-2348ページ。 0.84
IEEE, 2018. IEEE、2018年。 0.88
[55] Fei Xia, Amir R Zamir, Zhiyang He, Alexander Sax, Jitendra Malik, and Silvio Savarese. [55]Fei Xia, Amir R Zamir, Zhiyang He, Alexander Sax, Jitendra Malik, Silvio Savarese。 0.75
Gibson env: Real-world perception for embodied agents. Gibson env: 具体化エージェントの現実世界の認識。 0.74
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9068–9079, 2018. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Page 9068–9079, 2018
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 9068-9079頁、2018年。
0.80
[56] Jianxiong Xiao. [56] Jianxiong Xiao。 0.81
3d geometry for panorama, 2012. 3d geometry for panorama、2012年。 0.85
[57] Jianxiong Xiao, Krista A Ehinger, Aude Oliva, and Antonio Torralba. [57] Jianxiong Xiao、Krista A Ehinger、Aude Oliva、Antonio Torralba。 0.68
Recognizing scene viewpoint using panoramic place representation. パノラマ位置表現を用いたシーン視点の認識 0.71
In 2012 IEEE Conference on Computer 2012年のieee conference on computerで 0.72
Vision and Pattern Recognition, pages 2695–2702. 視覚およびパターン認識、ページ2695-2702。 0.80
IEEE, 2012. 2012年、IEEE。 0.66
[58] Jiu Xu, Bj¨orn Stenger, Tommi Kerola, and Tony Tung. 58] Jiu Xu、Bj sorn Stenger、Tommi Kerola、Tony Tung。 0.67
Pano2cad: Room layout from a single panorama image. Pano2cad: 単一パノラマ画像からのルームレイアウト。 0.84
In 2017 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 354–362. 2017年、IEEE Winter Conference on Applications of Computer Vision (WACV)、354-362ページ。 0.86
IEEE, 2017. 2017年、IEEE。 0.63
[59] Hao Yang and Hui Zhang. [59] Hao YangとHui Zhang。 0.75
Efficient 3d room shape recovery from a single panorama. 単一パノラマからの効率的な3次元室内形状復元 0.75
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5422–5430, 2016. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、ページ5422-5430、2016。 0.79
[60] Shang-Ta Yang, Fu-En Wang, Chi-Han Peng, Peter Wonka, Min Sun, and Hung-Kuo Chu. 60] Shang-Ta Yang、Fu-En Wang、Chi-Han Peng、Peter Wonka、Min Sun、Hung-Kuo Chu。 0.81
Dula-net: A dual-projection network for estimating room layouts from a single rgb panorama. dula-net:単一のrgbパノラマから部屋のレイアウトを推定するデュアルプロジェクションネットワーク。 0.69
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3363–3372, 2019. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) では、3363–3372, 2019 のページである。
訳抜け防止モード: コンピュータビジョンとパターン認識(CVPR)に関するIEEE会議の進行について ページ3363-3372、2019。
0.76
[61] Yang Yang, Shi Jin, Ruiyang Liu, Sing Bing Kang, and Jingyi Yu. 61]Yang Yang、Shi Jin、Ruiyang Liu、Sing Bing Kang、Jingyi Yu。 0.64
Automatic 3d indoor scene modeling from single panorama. 単一パノラマによる3次元室内シーンの自動モデリング 0.74
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3926–3934, 2018. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 3926–3934, 2018
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 3926-3934頁、2018年。
0.82
[62] Feng Zhang, Xiatian Zhu, Hanbin Dai, Mao Ye, and Ce Zhu. [62]Feng Zhang、Xiatian Zhu、Hanbin Dai、Mao Ye、Ce Zhu。 0.64
Distribution-aware coordinate representation for human pose In Proceedings of the IEEE/CVF Conference estimation. IEEE/CVF会議の進行におけるヒトポーズの分布認識座標表現 0.77
on Computer Vision and Pattern Recognition, pages 7093– 7102, 2020. コンピュータビジョンとパターン認識に関するページ 7093–7102, 2020。 0.80
[63] Richard Zhang. リチャード・張(Richard Zhang)。 0.69
Making convolutional networks shiftIn International Conference on Machine 機械に関する国際会議で、畳み込みネットワークが変化 0.75
invariant again. Learning, pages 7324–7334, 2019. 再び不変です 学習、ページ7324-7334、2019。 0.60
[64] Yinda Zhang, Shuran Song, Ping Tan, and Jianxiong Xiao. [64]Yinda Zhang、Shuran Song、Ping Tan、Jianxiong Xiao。 0.69
Panocontext: A whole-room 3d context model for panoramic scene understanding. Panocontext: パノラマシーン理解のための部屋全体の3Dコンテキストモデル。 0.75
In European conference on computer vision, pages 668–686. コンピュータビジョンに関する欧州会議では、668-686ページ。 0.74
Springer, 2014. [65] Jia Zheng, Junfei Zhang, Jing Li, Rui Tang, Shenghua Gao, Structured3d: A large photo-realistic In Proceedings of The 2014年春。 [65]Jia Zheng,Junfei Zhang,Jing Li,Rui Tang,Senghua Gao,Structured3d:A Large Photo-realistic In Proceedings of The The。 0.72
and Zihan Zhou. そしてZihan Zhou。 0.63
dataset for structured 3d modeling. 構造化3dモデリングのためのデータセット。 0.58
European Conference on Computer Vision (ECCV), 2020. 欧州コンピュータビジョン会議(ECCV)、2020年。 0.74
[66] Nikolaos Zioulis, Antonis Karakottas, Dimitrios Zarpalas, Federico Alvarez, and Petros Daras. [66] Nikolaos Zioulis、Antonis Karakottas、Dimitrios Zarpalas、Federico Alvarez、Petros Daras。 0.61
Spherical view syntheIn 2019 Insis for self-supervised 360° depth estimation. sphere view synthein 2019 insis for self-supervised 360° depth estimation 0.85
ternational Conference on 3D Vision (3DV), pages 690–699. ternational Conference on 3D Vision (3DV) 690-699頁。 0.86
IEEE, 2019. IEEE、2019年。 0.86
[67] Nikolaos Zioulis, Antonis Karakottas, Dimitrios Zarpalas, and Petros Daras. [67] Nikolaos Zioulis、Antonis Karakottas、Dimitrios Zarpalas、Petros Daras。 0.61
Omnidepth: Dense depth estimation for In Proceedings of the Euroindoors spherical panoramas. omnidepth: dense depth estimation for in proceedings of the euroindoors spherical panoramas (英語) 0.83
pean Conference on Computer Vision (ECCV), pages 448– 465, 2018. Pean Conference on Computer Vision (ECCV), page 448–465, 2018 0.74
[68] Chuhang Zou, Alex Colburn, Qi Shan, and Derek Hoiem. [68]Chuhang Zou、Alex Colburn、Qi Shan、Derek Hoiem。 0.69
Layoutnet: Reconstructing the 3d room layout from a sinIn Proceedings of the IEEE Conference gle rgb image. Layoutnet: IEEE Conference gle rgbイメージのProceedingsで、3dルームレイアウトを罪から再構築します。 0.81
on Computer Vision and Pattern Recognition, pages 2051– 2059, 2018. コンピュータビジョンとパターン認識に関するページ 2051–2059, 2018。 0.82
[69] Chuhang Zou, Jheng-Wei Su, Chi-Han Peng, Alex Colburn, Qi Shan, Peter Wonka, Hung-Kuo Chu, and Derek Hoiem. [69] Chuhang Zou、Jheng-Wei Su、Chi-Han Peng、Alex Colburn、Qi Shan、Peter Wonka、Hung-Kuo Chu、Derek Hoiem。 0.86
3d manhattan room layout reconstruction from a single 360 image. 3dmanhattanの部屋のレイアウトは単一の360イメージから再構成します。 0.61
arXiv preprint arXiv:1910.04099, 2019. arXiv preprint arXiv:1910.04099, 2019 0.81
14 14 0.85
英語(論文から抽出)日本語訳スコア
A. Supplementary Material In this supplementary material we present additional information regarding runtime and floating point operations, with the data offered in Table 6, and illustrated in Figure 8. A。 補足材料 本補足資料では,実行時および浮動小数点演算に関する追加情報を表6で提供し,図8に示す。 0.72
Apart from the models presented in the main document, we also add efficient CFL models for completeness. メイン文書に示したモデルとは別に、完全性のための効率的なCFLモデルも追加します。 0.72
In addition, we provide evaluation results for the Stanford2D3D and PanoContext datasets separately, in Tables 7 and 8 respectively. さらに、Stanford2D3DデータセットとPanoContextデータセットをそれぞれテーブル7と8で評価結果を提供します。 0.72
Further, in Tables 9, 10, and 11, we offer a decomposed model ablation for the Stanford2D3D, the PanoContext, and both datasets (averaged) respectively, where each individual component is ablated (namely, preactivated bottlenecks, spherical padding, and anti-aliased max pooling). さらに、テーブル9、10、11では、Stanford2D3D、PanoContext、および両方のデータセット(ラベル付き)の分解モデルアブレーションを提供し、各コンポーネントをアブレーションします(すなわち、事前アクティベートされたボトルネック、球状パディング、アンチエイリアス付きマックスプール)。
訳抜け防止モード: さらに,テーブル9,10,11では,stanford2d3dに対して分解モデルアブレーションを行う。 panocontextと両方のデータセット(平均値)はそれぞれ、各コンポーネントがアブレーションされる(すなわち、)。 プリアクティベートボトルネック,球面パディング,アンチエイリアスドマックスプールなど)。
0.66
The pre-activated residual blocks offer the larger gains, followed by the padding and finally, the antialiased max pooling. 事前活性化された残留ブロックはより大きな利益をもたらし、パディングが続き、最後にアンチエイリアスドマックスプールが続く。 0.63
Nonetheless, each different component is contributing to increased performance, with their combined effect being the most significant as observed by the model without all of these components together. にもかかわらず、それぞれの異なるコンポーネントはパフォーマンスの向上に貢献しており、それらの組み合わせ効果は、これらのコンポーネントをまとめることなく、モデルによって観察される最も重要なものである。
訳抜け防止モード: それでも、各コンポーネントはパフォーマンスの向上に貢献しています。 組み合わせた効果は モデルで観察された 最も重要な効果です これらの成分を全て組み合わせることなく
0.75
Figures 9, 10, 11 and 12 present additional qualitative results of our single-shot, end-to-end Manhattan aligned layout estimation model using the joint homography head module in Stanford2D3D, PanoContext, Structured3D and Kujiale datasets respectively. 図9,10,11,12は,Stanford2D3D,PanoCo ntext,Structured3DおよびKujialeデータセットのジョイントホモグラフィーヘッドモジュールを用いて,マンハッタンの単発・エンドツーエンドのレイアウト推定モデルの定性的な結果を示す。 0.76
Finally, Figures 13 and 14 present the qualitative samples from the real and synthetic datasets respectively, which are included in the main manuscript in animated 3D views (can only be viewed in recent Adobe Acrobat Reader versions). 最後に、図13と14は、アニメーション3Dビューのメイン原稿に含まれている実データと合成データセットの定性的なサンプルをそれぞれ提示する(最近のAdobe Acrobat Readerバージョンでのみ見ることができる)。 0.82
Figure 8: Model Size vs Accuracy vs Complexity. 図8: モデルのサイズ対精度対複雑さ。 0.78
Visual comparison of spherical layout estimation models in terms of parameters (denoted by each bullet’s size), computational complexity (x axis, in log scale, billions of multiply-accumulate operations) and accuracy (y axis, average IoU3D accuracy). パラメータ(各弾丸のサイズによって決定される)、計算複雑さ(x軸、ログスケール、数十億の乗算演算)、精度(y軸、平均IoU3D精度)の面での球面レイアウト推定モデルの視覚的比較。 0.79
Our model (SSC) is the most lightweight and offers a good comprise between complexity and accuracy, surpassing most other approaches. 私達のモデル(SSC)は最も軽量であり、他のほとんどのアプローチを超過する複雑さおよび正確さ間のよい構成を提供します。 0.69
It also provides an end-to-end layout prediction in a single-shot, compared to all other approaches that require postprocessing. また、後処理を必要とする他のすべてのアプローチと比較して、ワンショットでエンドツーエンドのレイアウト予測を提供する。 0.56
Different variants of each model are depicted. 各モデルの異なる変種が描かれている。 0.76
The exact data of this plot can be found in Table 6. このプロットの正確なデータは、Table 6で見ることができる。 0.70
15  $ 4&094/$$,4:909;:, 09;474309!,7,209078     15  $ 4&094/$$,4:909;:, 09;474309!,7,209078     0.50
英語(論文から抽出)日本語訳スコア
Table 6: This table presents model complexity measures (multiply-accumulate giga-operations per inference, millions of parameter counts, runtime performance) as well as accuracy (IoU3D) on real domain datasets. 表6: この表は、実際のドメインデータセットの精度(IoU3D)だけでなく、モデル複雑度測定(推論あたりの多重累積ギガ演算、数百万のパラメータカウント、実行時パフォーマンス)を示します。 0.68
This table’s reported values are used to generate Figure 8. このテーブルのレポートされた値は、図8を生成するために使用されます。 0.62
Method SSC LayoutNet v2 LayoutNet v2 LayoutNet v2 DuLa-Net v2 DuLa-Net v2 DuLa-Net v2 HorizonNet HorizonNet HorizonNet 方法 SSC LayoutNet v2 LayoutNet v2 LayoutNet v2 DuLa-Net v2 DuLa-Net v2 HorizonNet HorizonNet 0.82
CFL CFL Variant HG-3 CFL CFL バリアントHG-3 0.71
ResNet18 ResNet34 ResNet50 ResNet18 ResNet34 ResNet50 ResNet18 ResNet34 ResNet50 EfficientNet ResNet50 ResNet18 ResNet34 ResNet50 ResNet34 ResNet50 ResNet18 ResNet34 ResNet50 EfficientNet ResNet50 0.70
MACS 17.61G 76.12G 95.48G 607.43G 46.76G 75.79G 93.53G 23.03G 42.38G 71.70G 42.19G N/A MACS 17.61G 76.12G 95.48G 607.43G 46.76G 75.79G 93.53G 23.03G 42.38G 71.70G 42.19G N/A 0.34
Parameters 6.35M 15.57M 25.68M 91.50M 25.64M 45.86M 57.38M 23.49M 33.59M 81.57M 11.69M N/A パラメータ 6.35M 15.57M 25.68M 91.50M 25.64M 45.86M 57.38M 23.49M 33.59M 81.57M 11.69M N/A 0.56
CPU 1.78s 11.65s 12.97s 34.63s 4.99s 6.46s 7.22s N/As N/As 3.21s 0.074s 0.420s CPU 1.78s 11.65s 12.97s 34.63s 4.99s 6.46s 7.22s N/As N/21s 0.074s 0.420s 0.35
GPU 0.085s 0.034s 0.044s 0.130s 0.037s 0.049s 0.072s N/As N/As 0.063s 0.028s 0.052s GPU 0.085s 0.034s 0.044s 0.130s 0.037s 0.049s 0.072s N/As N/As 0.063s 0.028s 0.052s 0.34
IoU3D 85.89% 83.83% 84.60% 82.55% 83.68% 84.93% 85.19% 80.43% 80.87% 82.68% N/A% 78.79% IoU3D 85.89% 83.83% 84.60% 82.55% 83.68% 84.93% 85.19% 80.43% 80.87% 82.68% N/A% 78.79% 0.59
Variant Quasi-Manhattan 変種 準マンハッタン 0.59
w/ Homography (joint) w/ Homography (floor) w/ Homography (ceil) w/homography (joint) w/homography (floor) w/homography (ceil) 0.88
w/o Geodesics w/o Model Adaptation w/o Quasi-Manhattan 地質学 w/o Model Adaptation w/o Quasi-Manhattan 0.51
Variant Quasi-Manhattan 変種 準マンハッタン 0.59
w/ Homography (joint) w/ Homography (floor) w/ Homography (ceil) w/homography (joint) w/homography (floor) w/homography (ceil) 0.88
w/o Geodesics w/o Model Adaptation w/o Quasi-Manhattan 地質学 w/o Model Adaptation w/o Quasi-Manhattan 0.51
Variant Quasi-Manhattan 変種 準マンハッタン 0.59
w/o Model Adaptation w/o Pre-activated w/oモデル適応 w/oプレアクティベート 0.54
w/o Padding w/o Padding 0.71
w/o Anti-aliasing Variant アンチエイリアス 変種 0.54
Quasi-Manhattan w/o Model Adaptation 準マンハッタン w/oモデル適応 0.62
w/o Pre-activated w/oプレアクティベート 0.41
w/o Padding w/o Padding 0.71
w/o Anti-aliasing Variant アンチエイリアス 変種 0.54
Quasi-Manhattan w/o Model Adaptation 準マンハッタン w/oモデル適応 0.62
w/o Pre-activated w/oプレアクティベート 0.41
w/o Padding w/o Padding 0.71
w/o Anti-aliasing Table 7: Ablation results on the Stanford2D3D dataset. アンチエイリアス 表7:Stanford2D3Dデータセットのアブレーション結果。 0.55
PE ↓ IoU3D ↑ PE! IoU3Dとは? 0.38
IoU2D ↑ J10 ↑ 88.18% 85.16% 1.83% 64.82% 83.41% IoU2D - 88.18% 85.16% 1.83% 64.82% 83.41% 0.61
RMSE ↓ CE ↓ 0.56% 0.1787 0.51% 89.83% 87.80% 1.62% 64.27% 85.07% 92.70% 27.65% 62.02% 77.36% 0.1402 0.59% 89.51% 87.56% 1.80% 0.1474 54.87% 81.86% 90.27% 23.01% 52.73% 70.35% 0.1539 0.58% 89.04% 87.04% 1.82% 60.29% 82.74% 91.81% 27.88% 57.52% 74.04% 0.2213 0.80% 84.72% 81.73% 2.34% 32.19% 67.70% 87.28% 25.15% 49.71% 0.1815 0.62% 87.77% 84.47% 1.85% 59.40% 79.20% 89.60% 25.96% 54.35% 69.76% 0.60% 87.50% 84.72% 1.86% 58.30% 79.76% 90.49% 19.32% 54.79% 71.17% 0.1825 RMSE ↓ CE ↓ 0.56% 0.1787 0.51% 89.83% 87.80% 1.62% 64.27% 85.07% 92.70% 27.65% 62.02% 77.36% 0.1402 0.59% 89.51% 87.56% 1.80% 0.1474 54.87% 81.86% 90.27% 23.01% 52.73% 70.35% 0.1539 0.58% 89.04% 87.04% 1.82% 60.29% 82.74% 91.81% 27.88% 57.52% 74.04% 0.2213 0.80% 84.72% 81.73% 2.34% 32.19% 67.70% 87.28% 25.15% 49.71% 0.1815 0.62% 87.77% 84.47% 1.85% 59.40% 79.20% 89.60% 25.96% 54.35% 69.76% 0.60% 87.50% 84.72% 1.86% 58.30% 79.76% 90.49% 19.32% 54.79% 71.17% 0.1825 0.58
J15 ↑ W15 ↑ 89.82% 33.55% 62.32% 75.81% J15~W15~89.82%33.55%62.32%75 .81% 0.57
W10 ↑ W5 ↑ J5 ↑ W10。 W5。 J5。 0.60
4.13% Table 8: Ablation results on the PanoContext dataset. 4.13% 表8: panocontextデータセットでのアブレーション結果。 0.72
PE ↓ IoU3D ↑ PE! IoU3D! 0.47
IoU2D ↑ 86.95% 83.97% 1.78% IoU2D! 86.95% 83.97% 1.78% 0.58
CE ↓ RMSE ↓ 0.53% 87.63% 84.89% 1.65% 58.25% 84.67% 92.22% 27.67% 53.62% 74.06% 0.1682 0.1711 0.63% 2.02% 39.15% 71.46% 87.03% 0.76% 87.00% 84.39% 0.1708 0.1803 0.68% 86.22% 83.47% 1.93% 45.28% 80.42% 91.04% 0.2252 0.78% 84.08% 80.43% 2.27% 35.38% 72.41% 86.32% 0.2250 0.68% 85.42% 81.41% 2.11% 51.42% 0.61% 86.99% 0.1922 CE ↓ RMSE ↓ 0.53% 87.63% 84.89% 1.65% 58.25% 84.67% 92.22% 27.67% 53.62% 74.06% 0.1682 0.1711 0.63% 2.02% 39.15% 71.46% 87.03% 0.76% 87.00% 84.39% 0.1708 0.1803 0.68% 86.22% 83.47% 1.93% 45.28% 80.42% 91.04% 0.2252 0.78% 84.08% 80.43% 2.27% 35.38% 72.41% 86.32% 0.2250 0.68% 85.42% 81.41% 2.11% 51.42% 0.61% 86.99% 0.1922 0.58
43.24% 64.78% 33.49% 56.13% 45.75% 65.41% 27.52% 57.08% 63.21% 13.21% 45.28% 68.08% 43.24% 64.78% 33.49% 56.13% 45.75% 65.41% 27.52% 57.08% 63.21% 13.21% 45.28% 68.08% 0.60
45.75% 76.18% 90.80% 14.31% 9.59% 9.12% 5.19% 45.75% 76.18% 90.80% 14.31% 9.59% 9.12% 5.19% 0.61
83.46% 1.77% 50.00% 80.66% 91.51% 83.46% 1.77% 50.00% 80.66% 91.51% 0.62
77.12% 87.50% 19.50% 46.07% 77.12% 87.50% 19.50% 46.07% 0.62
W10 ↑ W15 ↑ W10。 W15年。 0.53
J15 ↑ J10 ↑ W5 ↑ J15。 J10。 W5。 0.61
J5 ↑ Table 9: Model ablation results on the Stanford2D3D dataset. J5。 表9:Stanford2D3Dデータセットのモデルアブレーション結果。 0.68
IoU2D ↑ IoU3D ↑ IoU2D! IoU3D! 0.52
CE ↓ RMSE ↓ 0.56% 88.18% 85.16% 1.83% 64.82% 83.41% 89.82% 33.55% 62.32% 75.81% 0.1787 0.1815 0.62% 0.1748 0.58% 0.56% 88.10% 0.1788 0.1721 0.56% 88.06% 85.15% 1.76% 62.50% CE ↓ RMSE ↓ 0.56% 88.18% 85.16% 1.83% 64.82% 83.41% 89.82% 33.55% 62.32% 75.81% 0.1787 0.1815 0.62% 0.1748 0.58% 0.56% 88.10% 0.1788 0.1721 0.56% 88.06% 85.15% 1.76% 62.50% 0.59
87.77% 84.47% 1.85% 59.40% 79.20% 89.60% 25.96% 54.35% 69.76% 87.93% 85.09% 74.34% 85.07% 1.73% 64.82% 83.85% 90.71% 30.60% 62.02% 75.22% 60.03% 75.29% 87.77% 84.47% 1.85% 59.40% 79.20% 89.60% 25.96% 54.35% 69.76% 87.93% 85.09% 74.34% 85.07% 1.73% 64.82% 83.85% 90.71% 30.60% 62.02% 75.22% 60.03% 75.29% 0.59
1.86% 63.94% 83.08% 89.82% 1.86% 63.94% 83.08% 89.82% 0.62
82.52% 90.60% 28.32% 82.52% 90.60% 28.32% 0.63
28.24% 61.73% 28.24% 61.73% 0.65
W10 ↑ W15 ↑ W10。 W15年。 0.53
J10 ↑ J15 ↑ W5 ↑ J10。 J15。 W5。 0.61
PE ↓ J5 ↑ Table 10: Model ablation results on the PanoContext dataset. PE! J5。 表10: PanoContextデータセットのモデルアブレーション結果。 0.56
IoU2D ↑ IoU3D ↑ IoU2Dとは? IoU3Dとは? 0.33
RMSE ↓ CE ↓ 0.53% 87.63% 84.89% 1.65% 58.25% 84.67% 92.22% 27.67% 53.62% 74.06% 0.1682 0.2250 0.68% 85.42% 81.41% 2.11% 51.42% 77.12% 87.50% 19.50% 46.07% 63.21% 0.1793 0.62% 87.48% 83.68% 1.81% 55.90% 68.40% 0.2043 0.61% 85.96% 87.97% 24.69% 50.94% 70.28% 55.42% 82.78% 91.98% 27.52% 51.10% 69.50% 0.55% 87.48% 84.41% 1.76% 0.1745 RMSE ↓ CE ↓ 0.53% 87.63% 84.89% 1.65% 58.25% 84.67% 92.22% 27.67% 53.62% 74.06% 0.1682 0.2250 0.68% 85.42% 81.41% 2.11% 51.42% 77.12% 87.50% 19.50% 46.07% 63.21% 0.1793 0.62% 87.48% 83.68% 1.81% 55.90% 68.40% 0.2043 0.61% 85.96% 87.97% 24.69% 50.94% 70.28% 55.42% 82.78% 91.98% 27.52% 51.10% 69.50% 0.55% 87.48% 84.41% 1.76% 0.1745 0.59
82.84% 1.96% 56.13% 82.31% 82.84% 1.96% 56.13% 82.31% 0.62
79.48% 88.92% 79.48% 88.92% 0.65
20.60% 51.10% 20.60% 51.10% 0.65
W10 ↑ W15 ↑ W10。 W15年。 0.53
J10 ↑ J15 ↑ W5 ↑ J10。 J15。 W5。 0.61
PE ↓ J5 ↑ Table 11: Average model ablation results on both the real datasets. PE! J5。 表11: 平均モデルアブレーションは、両方の実際のデータセットに結果をもたらす。 0.59
IoU2D ↑ W10 ↑ IoU2DはW10。 0.57
CE ↓ RMSE ↓ 0.55% 87.90% 85.02% 1.74% 61.54% 84.04% 91.02% 30.61% 57.97% 74.93% 0.1734 0.2033 0.65% 86.60% 82.94% 1.98% 55.41% 78.16% 88.55% 22.73% 50.21% 66.49% 0.60% 87.70% 84.39% 1.84% 59.92% 71.37% 0.1771 0.1916 89.34% 27.65% 56.48% 72.75% 0.59% 0.1733 0.56% 87.77% 84.78% 1.76% 55.57% 72.40% CE ↓ RMSE ↓ 0.55% 87.90% 85.02% 1.74% 61.54% 84.04% 91.02% 30.61% 57.97% 74.93% 0.1734 0.2033 0.65% 86.60% 82.94% 1.98% 55.41% 78.16% 88.55% 22.73% 50.21% 66.49% 0.60% 87.70% 84.39% 1.84% 59.92% 71.37% 0.1771 0.1916 89.34% 27.65% 56.48% 72.75% 0.59% 0.1733 0.56% 87.77% 84.78% 1.76% 55.57% 72.40% 0.59
87.03% 83.95% 1.84% 60.48% 83.08% 87.03% 83.95% 1.84% 60.48% 83.08% 0.62
58.96% 82.65% 91.29% 27.92% 58.96% 82.65% 91.29% 27.92% 0.62
81.28% 89.37% 81.28% 89.37% 0.65
24.42% 56.41% 24.42% 56.41% 0.65
IoU3D ↑ W15 ↑ IoU3D! W15年。 0.46
J10 ↑ J15 ↑ W5 ↑ J10。 J15。 W5。 0.61
PE ↓ J5 ↑ 16 PE! J5。 16 0.63
δ1 ↑ 95.59% 98.28% 97.95% 97.36% 95.31% 97.10% 95.97% δ1 ↑ 95.59% 98.28% 97.95% 97.36% 95.31% 97.10% 95.97% 0.63
δ1 ↑ 96.68% 97.58% 97.09% 97.92% 95.64% 94.13% 96.66% δ1 ↑ 96.68% 97.58% 97.09% 97.92% 95.64% 94.13% 96.66% 0.63
δ1 ↑ 95.59% 97.10% 96.05% 96.61% 97.11% δ1 ↑ 95.59% 97.10% 96.05% 96.61% 97.11% 0.64
δ1 ↑ 96.68% 94.13% 95.85% 95.18% 96.72% δ1 ↑ 96.68% 94.13% 95.85% 95.18% 96.72% 0.64
δ1 ↑ 96.14% 95.61% 95.95% 95.90% 96.92% δ1 ↑ 96.14% 95.61% 95.95% 95.90% 96.92% 0.64
英語(論文から抽出)日本語訳スコア
Figure 9: Additional qualitative results on the Stanford2D3D dataset. 図9:stanford2d3dデータセットのさらなる質的結果。 0.69
17 17 0.85
英語(論文から抽出)日本語訳スコア
Figure 10: Additional qualitative results on the PanoContext dataset. 図10: PanoContextデータセットのさらなる定性的な結果。 0.85
18 18 0.85
英語(論文から抽出)日本語訳スコア
Figure 11: Additional qualitative results on the Structured3D dataset. 図11: Structured3Dデータセットのさらなる定性的な結果。 0.79
19 19 0.85
英語(論文から抽出)日本語訳スコア
Figure 12: Additional qualitative results on the Kujiale dataset. 図12:Kujialeデータセットのさらなる定性的な結果。 0.87
20 20 0.85
英語(論文から抽出)日本語訳スコア
Figure 13: Animated renderings of the 3D qualitative results of the real datasets as presented in the figures of the main manuscript. 図13:メイン原稿の図に示すように、実際のデータセットの3D定性結果のアニメーションレンダリング。 0.71
Top row samples are from PanoContext, bottom row samples are from Stanford2D3D. 上行のサンプルはpanocontextから、下行のサンプルはstanford2d3dから。 0.62
(animations are only playable in recent Adobe Acrobat Reader versions). (アニメーションは最近のAdobe Acrobat Readerバージョンでしか再生できない)。 0.83
Figure 14: Animated renderings of the 3D qualitative results of the synthetic datasets as presented in the figures of the main manuscript. 図14: 主要写本の図に示すように、合成データセットの3次元定性的結果のアニメーションレンダリング。 0.71
Top rows samples are from Structured3D, bottom row samples are from Kujiale. 上行のサンプルはstructured3dから、下行のサンプルはkujialeから。 0.69
(animations are only playable in recent Adobe Acrobat Reader versions). (アニメーションは最近のAdobe Acrobat Readerバージョンでしか再生できない)。 0.83
21 21 0.85
                                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。