Fugu-MT 論文翻訳(概要): SCONE: Surface Coverage Optimization in Unknown Environments by Volumetric Integration

論文の概要: SCONE: Surface Coverage Optimization in Unknown Environments by Volumetric Integration

arxiv url: http://arxiv.org/abs/2208.10449v1
Date: Mon, 22 Aug 2022 17:04:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-23 14:17:16.193771
Title: SCONE: Surface Coverage Optimization in Unknown Environments by Volumetric Integration
Title（参考訳）: SCONE:ボリューム統合による未知環境の表面被覆最適化
Authors: Antoine Gu\'edon, Pascal Monasse, Vincent Lepetit
Abstract要約: 次回ベストビュー計算(NBV)は、ロボット工学における長年の問題である。体積表現上でモンテカルロ積分により表面積を最大化できることが示される。入力はLidarシステムのような深度センサーで収集された任意の大きさの点雲と、カメラのポーズでNBVを予測する。
参考スコア（独自算出の注目度）: 23.95135709027516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Next Best View computation (NBV) is a long-standing problem in robotics, and consists in identifying the next most informative sensor position(s) for reconstructing a 3D object or scene efficiently and accurately. Like most current methods, we consider NBV prediction from a depth sensor. Learning-based methods relying on a volumetric representation of the scene are suitable for path planning, but do not scale well with the size of the scene and have lower accuracy than methods using a surface-based representation. However, the latter constrain the camera to a small number of poses. To obtain the advantages of both representations, we show that we can maximize surface metrics by Monte Carlo integration over a volumetric representation. Our method scales to large scenes and handles free camera motion: It takes as input an arbitrarily large point cloud gathered by a depth sensor like Lidar systems as well as camera poses to predict NBV. We demonstrate our approach on a novel dataset made of large and complex 3D scenes.
Abstract（参考訳）: 次回ベストビュー計算(NBV)は、ロボット工学における長年の課題であり、3Dオブジェクトやシーンを効率的に正確に再構築するための次の最も有益なセンサー位置を特定することである。最近の方法と同様に、深度センサによるNBV予測も検討している。シーンのボリューム表現に依存する学習ベースの手法はパスプランニングに適しているが、シーンのサイズに比較してスケールが良くなく、表面ベース表現を用いた方法よりも精度が低い。しかし、後者はカメラを少数のポーズに制限している。両表現の利点を得るため,体積表現上のモンテカルロ積分により表面積を最大化できることが示される。この方法は、Lidarシステムのような深度センサーによって収集された任意の大きな点の雲と、NBVを予測するカメラのポーズの入力として、大きなシーンにスケールし、フリーカメラの動きを処理します。大規模で複雑な3Dシーンからなる新しいデータセットに対するアプローチを実証する。

関連論文リスト

Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning [28.80962812015936]
キャリブレーションされたRGBDカメラからの観察を取り入れた3次元シーン表現は、ILポリシーの一般化性を改善する方法として提案されている。本稿では、1つ以上のRGBDカメラからのデータを1つのベクトルに合成し、任意のILアルゴリズムの条件付けとして使用できる新しいアーキテクチャを用いたAdaptive 3D Scene Representation(Adapt3R)を提案する。我々は,複数のSOTAマルチタスクILアルゴリズムを用いてエンドツーエンドにトレーニングを行った場合,Adapt3Rはこれらのアルゴリズムのマルチタスク学習能力を維持しつつ,新規なエンボディメントやカメラポーズへのゼロショット転送を可能にしていることを示す。
論文参考訳（メタデータ） (2025-03-06T18:17:09Z)
No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2024-10-31T17:58:22Z)
A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose [44.13819148680788]
カメラポーズを伴わないスパースビュー合成のための新しい構成と最適化手法を開発した。具体的には、単分子深度と画素を3次元の世界に投影することで、解を構築する。タンク・アンド・テンプル・アンド・スタティック・ハイクスのデータセットに3つの広い範囲のビューで結果を示す。
論文参考訳（メタデータ） (2024-05-06T17:36:44Z)
Incremental Joint Learning of Depth, Pose and Implicit Scene Representation on Monocular Camera in Large-scale Scenes [17.055674468733244]
本研究では,正確な深度,ポーズ推定,大規模シーン再構築を実現するための,段階的な共同学習フレームワークを提案する。視覚変換器を用いたネットワークをバックボーンとして採用し、スケール情報推定の性能を向上させる。暗黙的なシーン表現の観点から、大規模シーン全体を複数の局所放射場として構成するインクリメンタルなシーン表現法を提案する。
論文参考訳（メタデータ） (2024-04-09T06:27:35Z)
MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2023-08-17T08:29:54Z)
FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文参考訳（メタデータ） (2023-05-31T20:58:46Z)
Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文参考訳（メタデータ） (2023-01-12T18:01:28Z)
P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [133.76192155312182]
本研究では,コプラナー画素からの情報を選択的に活用して予測深度を改善する手法を提案する。本手法の広範な評価により, 教師付き単分子深度推定法において, 新たな手法の確立が期待できる。
論文参考訳（メタデータ） (2022-04-05T10:03:52Z)
3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文参考訳（メタデータ） (2021-12-01T00:52:42Z)
Back to the Feature: Learning Robust Camera Localization from Pixels to Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文参考訳（メタデータ） (2021-03-16T17:40:12Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。