論文の概要: Touch-GS: Visual-Tactile Supervised 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2403.09875v1
- Date: Thu, 14 Mar 2024 21:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 21:05:51.170753
- Title: Touch-GS: Visual-Tactile Supervised 3D Gaussian Splatting
- Title(参考訳): Touch-GS:3Dガウシアン・スプレイティングを監督するビジュアル触覚
- Authors: Aiden Swann, Matthew Strong, Won Kyung Do, Gadiel Sznaier Camps, Mac Schwager, Monroe Kennedy III,
- Abstract要約: 光触覚センサを用いた3次元ガウス撮影シーンの監視手法を提案する。
我々は、DenseTact光触覚センサとRealSense RGB-Dカメラを活用し、この方法でタッチとビジョンを組み合わせることで、視覚やタッチ単独よりも定量的に質的に優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 13.895893586777802
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we propose a novel method to supervise 3D Gaussian Splatting (3DGS) scenes using optical tactile sensors. Optical tactile sensors have become widespread in their use in robotics for manipulation and object representation; however, raw optical tactile sensor data is unsuitable to directly supervise a 3DGS scene. Our representation leverages a Gaussian Process Implicit Surface to implicitly represent the object, combining many touches into a unified representation with uncertainty. We merge this model with a monocular depth estimation network, which is aligned in a two stage process, coarsely aligning with a depth camera and then finely adjusting to match our touch data. For every training image, our method produces a corresponding fused depth and uncertainty map. Utilizing this additional information, we propose a new loss function, variance weighted depth supervised loss, for training the 3DGS scene model. We leverage the DenseTact optical tactile sensor and RealSense RGB-D camera to show that combining touch and vision in this manner leads to quantitatively and qualitatively better results than vision or touch alone in a few-view scene syntheses on opaque as well as on reflective and transparent objects. Please see our project page at http://armlabstanford.github.io/touch-gs
- Abstract(参考訳): 本研究では,光学式触覚センサを用いた3次元ガウス撮影(3DGS)シーンの監視手法を提案する。
光触覚センサはロボティクスにおいて操作やオブジェクト表現に広く利用されているが、光学触覚センサのデータは直接3DGSシーンを監督するには適していない。
我々の表現は、ガウス的プロセス・インプリシット・サーフェスを利用してオブジェクトを暗黙的に表現し、多くのタッチを統一された表現と不確実性を組み合わせた。
このモデルを2段階のプロセスで整列した単眼深度推定ネットワークにマージし、奥行きカメラと粗い整列を行い、タッチデータに合わせて微調整する。
各トレーニング画像に対して,本手法は対応する融合深度と不確実性マップを生成する。
この追加情報を利用することで、3DGSシーンモデルのトレーニングのための新たな損失関数である分散重み付き深度教師付き損失を提案する。
我々は、DenseTact光触覚センサとRealSense RGB-Dカメラを利用して、不透明で透明な物体だけでなく、数ビューのシーン合成において、触覚と視覚の組み合わせが視覚や触覚よりも定量的に質的に良い結果をもたらすことを示す。
プロジェクトページはhttp://armlabstanford.github.io/touch-gsでご覧ください。
関連論文リスト
- Tactile-Augmented Radiance Fields [23.3063261842082]
触覚増強放射場(TaRF)と呼ばれるシーン表現を提示する。
この表現は、シーン内の所定の3D位置の視覚的および触覚的な信号を推定するために使用することができる。
私たちは、シーンのTaRFを、写真とわずかにサンプルされたタッチプローブの集合から捉えます。
論文 参考訳(メタデータ) (2024-05-07T17:59:50Z) - HoloGS: Instant Depth-based 3D Gaussian Splatting with Microsoft HoloLens 2 [1.1874952582465603]
私たちは、Microsoft HoloLens 2の能力をインスタント3Dガウススプレイティングに活用しています。
HoloLensセンサーデータを利用した新しいワークフローであるHoloGSを紹介し、前処理ステップの必要性を回避した。
文化遺産像の屋外シーンと細構造植物室内シーンの2つの自撮りシーンに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-03T11:08:04Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces [34.831730064258494]
本研究では,タッチデータ(局所深度マップ)を多視点視覚データと組み合わせ,表面再構成と新しいビュー合成を実現する新しいアプローチである触覚インフォームド3DGSを提案する。
タッチ位置の透過率を低下させる枠組みを作成することにより,表面の微細化を実現し,均一に滑らかな深度マップを実現する。
我々は、光沢と反射面を有する物体に対して評価を行い、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-29T16:30:17Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - SCONE: Surface Coverage Optimization in Unknown Environments by
Volumetric Integration [23.95135709027516]
次回ベストビュー計算(NBV)は、ロボット工学における長年の問題である。
体積表現上でモンテカルロ積分により表面積を最大化できることが示される。
入力はLidarシステムのような深度センサーで収集された任意の大きさの点雲と、カメラのポーズでNBVを予測する。
論文 参考訳(メタデータ) (2022-08-22T17:04:14Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。