Fugu-MT 論文翻訳(概要): Multi-task Planar Reconstruction with Feature Warping Guidance

論文の概要: Multi-task Planar Reconstruction with Feature Warping Guidance

arxiv url: http://arxiv.org/abs/2311.14981v2
Date: Thu, 21 Dec 2023 16:45:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 18:00:20.974450
Title: Multi-task Planar Reconstruction with Feature Warping Guidance
Title（参考訳）: 特徴ゆがみ指導によるマルチタスク平面再構成
Authors: Luan Wei, Anna Hilsmann and Peter Eisert
Abstract要約: ピースワイドな平面3D再構成は、同時に平面インスタンスを分割し、画像からそれらの平面パラメータを復元する。本稿では,修正インスタンスセグメンテーションアーキテクチャに基づくリアルタイム平面再構成モデルであるSOLOPlanesを紹介する。本モデルでは,43FPSでリアルタイムな予測を行いながら,単一画像の推測時にセマンティクスを同時に予測する。
参考スコア（独自算出の注目度）: 3.95944314850151
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Piece-wise planar 3D reconstruction simultaneously segments plane instances and recovers their 3D plane parameters from an image, which is particularly useful for indoor or man-made environments. Efficient reconstruction of 3D planes coupled with semantic predictions offers advantages for a wide range of applications requiring scene understanding and concurrent spatial mapping. However, most existing planar reconstruction models either neglect semantic predictions or do not run efficiently enough for real-time applications. We introduce SOLOPlanes, a real-time planar reconstruction model based on a modified instance segmentation architecture which simultaneously predicts semantics for each plane instance, along with plane parameters and piece-wise plane instance masks. We achieve an improvement in instance mask segmentation by including multi-view guidance for plane predictions in the training process. This cross-task improvement, training for plane prediction but improving the mask segmentation, is due to the nature of feature sharing in multi-task learning. Our model simultaneously predicts semantics using single images at inference time, while achieving real-time predictions at 43 FPS.
Abstract（参考訳）: ピアースワイドな平面3D再構成は、平面のインスタンスを同時に分割し、画像からそれらの3D平面パラメータを復元する。 3次元平面の効率的な再構成と意味予測は、シーン理解と同時空間マッピングを必要とする幅広いアプリケーションに有利である。しかし、ほとんどの既存の平面再構成モデルは意味論的予測を無視するか、リアルタイムアプリケーションで十分に効率的に動作しない。修正されたインスタンスセグメンテーションアーキテクチャをベースとしたリアルタイム平面再構成モデルであるSOLOPlanesを導入し,各プレーンインスタンスのセマンティクスを同時に予測する。トレーニングプロセスにおいて,平面予測のためのマルチビューガイダンスを組み込むことにより,インスタンスマスクのセグメンテーションを改善する。このクロスタスクの改善、平面予測のためのトレーニング、マスクセグメンテーションの改善は、マルチタスク学習における機能共有の性質によるものだ。本モデルでは,43FPSでリアルタイムな予測を行いながら,単一画像の推測時にセマンティクスを同時に予測する。

関連論文リスト

URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。 URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-11-02T13:45:51Z)
PLANA3R: Zero-shot Metric Planar 3D Reconstruction via Feed-Forward Planar Splatting [56.188624157291024]
提案するPLANA3Rは,提案しない2次元画像から平面3次元再構成を計測するためのポーズレスフレームワークである。トレーニング中に3次元平面アノテーションを必要とする以前のフィードフォワード法とは異なり、PLANA3Rは明確な平面監督なしで平面3次元構造を学習する。本研究は,複数の室内環境データセットに対するPLANA3Rの有効性を検証するとともに,領域外屋内環境への強力な一般化を実証する。
論文参考訳（メタデータ） (2025-10-21T15:15:33Z)
Towards In-the-wild 3D Plane Reconstruction from a Single Image [16.857296782216206]
単一の画像から3D平面を再構築することは、3Dコンピュータビジョンにおいて重要な課題である。これまでの最先端の手法は、屋内または屋外のドメインから1つのデータセットでシステムのトレーニングに重点を置いてきた。ゼロショット3次元平面の検出と再構成を目的としたトランスフォーマーベースモデルであるZeroPlaneを紹介した。
論文参考訳（メタデータ） (2025-06-03T06:14:05Z)
PlanarSplatting: Accurate Planar Surface Reconstruction in 3 Minutes [32.00236197233923]
PlanarSplattingはマルチビュー屋内画像のための超高速かつ高精度な表面再構成手法である。 PlanarSplattingは3分で室内のシーンを再構築し、幾何学的精度は大幅に向上した。
論文参考訳（メタデータ） (2024-12-04T16:38:07Z)
MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文参考訳（メタデータ） (2024-11-02T12:15:29Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
AirPlanes: Accurate Plane Estimation via 3D-Consistent Embeddings [26.845588648999417]
本研究では,3次元画像から平面面を推定する問題に対処する。本稿では,平面へのクラスタリングにおける幾何を補完する多視点一貫した平面埋め込みを予測する手法を提案する。我々は、ScanNetV2データセットの広範な評価を通じて、我々の新しい手法が既存のアプローチより優れていることを示す。
論文参考訳（メタデータ） (2024-06-13T09:49:31Z)
360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。また,水平深度と比表現に適した教師なし適応手法を提案する。本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文参考訳（メタデータ） (2023-12-26T12:16:03Z)
OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文参考訳（メタデータ） (2023-12-14T18:58:52Z)
PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation [10.982464344805194]
PlaneRecTR++はTransformerベースのアーキテクチャで、マルチビューの再構築とポーズ推定に関連するすべてのサブタスクを統合する。提案した統合学習は,ScanNetv1,ScanNetv2,NYUv2-Plane,MatterPort3Dデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-07-25T18:28:19Z)
Self-supervised Pre-training with Masked Shape Prediction for 3D Scene Understanding [106.0876425365599]
Masked Shape Prediction (MSP)は、3Dシーンでマスクされた信号モデリングを行うための新しいフレームワークである。 MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
論文参考訳（メタデータ） (2023-05-08T20:09:19Z)
Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文参考訳（メタデータ） (2022-08-04T17:59:56Z)
PlanarRecon: Real-time 3D Plane Detection and Reconstruction from Posed Monocular Videos [32.286637700503995]
PlanarReconは、提示されたモノクロビデオから3次元平面のグローバルなコヒーレントな検出と再構築のためのフレームワークである。学習ベースのトラッキングと融合モジュールは、以前のフラグメントから平面をマージして、コヒーレントなグローバルな平面再構成を形成するように設計されている。実験の結果,提案手法はリアルタイムでありながら,ScanNetデータセット上での最先端のパフォーマンスを実現することがわかった。
論文参考訳（メタデータ） (2022-06-15T17:59:16Z)
Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文参考訳（メタデータ） (2022-05-05T17:59:55Z)
PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for Piece-Wise Plane Detection and Reconstruction from a Single RGB Image [11.215334675788952]
ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
論文参考訳（メタデータ） (2021-10-21T15:54:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。