Fugu-MT 論文翻訳(概要): Touch-GS: Visual-Tactile Supervised 3D Gaussian Splatting

論文の概要: Touch-GS: Visual-Tactile Supervised 3D Gaussian Splatting

arxiv url: http://arxiv.org/abs/2403.09875v1
Date: Thu, 14 Mar 2024 21:09:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 21:05:51.170753
Title: Touch-GS: Visual-Tactile Supervised 3D Gaussian Splatting
Title（参考訳）: Touch-GS:3Dガウシアン・スプレイティングを監督するビジュアル触覚
Authors: Aiden Swann, Matthew Strong, Won Kyung Do, Gadiel Sznaier Camps, Mac Schwager, Monroe Kennedy III,
Abstract要約: 光触覚センサを用いた3次元ガウス撮影シーンの監視手法を提案する。我々は、DenseTact光触覚センサとRealSense RGB-Dカメラを活用し、この方法でタッチとビジョンを組み合わせることで、視覚やタッチ単独よりも定量的に質的に優れた結果が得られることを示す。
参考スコア（独自算出の注目度）: 13.895893586777802
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this work, we propose a novel method to supervise 3D Gaussian Splatting (3DGS) scenes using optical tactile sensors. Optical tactile sensors have become widespread in their use in robotics for manipulation and object representation; however, raw optical tactile sensor data is unsuitable to directly supervise a 3DGS scene. Our representation leverages a Gaussian Process Implicit Surface to implicitly represent the object, combining many touches into a unified representation with uncertainty. We merge this model with a monocular depth estimation network, which is aligned in a two stage process, coarsely aligning with a depth camera and then finely adjusting to match our touch data. For every training image, our method produces a corresponding fused depth and uncertainty map. Utilizing this additional information, we propose a new loss function, variance weighted depth supervised loss, for training the 3DGS scene model. We leverage the DenseTact optical tactile sensor and RealSense RGB-D camera to show that combining touch and vision in this manner leads to quantitatively and qualitatively better results than vision or touch alone in a few-view scene syntheses on opaque as well as on reflective and transparent objects. Please see our project page at http://armlabstanford.github.io/touch-gs
Abstract（参考訳）: 本研究では,光学式触覚センサを用いた3次元ガウス撮影(3DGS)シーンの監視手法を提案する。光触覚センサはロボティクスにおいて操作やオブジェクト表現に広く利用されているが、光学触覚センサのデータは直接3DGSシーンを監督するには適していない。我々の表現は、ガウス的プロセス・インプリシット・サーフェスを利用してオブジェクトを暗黙的に表現し、多くのタッチを統一された表現と不確実性を組み合わせた。このモデルを2段階のプロセスで整列した単眼深度推定ネットワークにマージし、奥行きカメラと粗い整列を行い、タッチデータに合わせて微調整する。各トレーニング画像に対して,本手法は対応する融合深度と不確実性マップを生成する。この追加情報を利用することで、3DGSシーンモデルのトレーニングのための新たな損失関数である分散重み付き深度教師付き損失を提案する。我々は、DenseTact光触覚センサとRealSense RGB-Dカメラを利用して、不透明で透明な物体だけでなく、数ビューのシーン合成において、触覚と視覚の組み合わせが視覚や触覚よりも定量的に質的に良い結果をもたらすことを示す。プロジェクトページはhttp://armlabstanford.github.io/touch-gsでご覧ください。

関連論文リスト

Masked Depth Modeling for Spatial Perception [44.0326843862591]
LingBot-Depthは、ディープマップをマスクしたディープ・モデリングにより洗練するディープ・コンプリート・モデルである。最上位のRGB-Dカメラよりも、奥行きの精度とピクセルのカバレッジが優れている。我々は,空間認識のコミュニティに対して,コード,チェックポイント,および3M RGB-depthペアをリリースする。
論文参考訳（メタデータ） (2026-01-25T16:13:49Z)
RS3DBench: A Comprehensive Benchmark for 3D Spatial Perception in Remote Sensing [71.75704516333394]
本稿では、RS3DBenchと呼ばれるリモートセンシング画像の3次元理解のためのビジュアルベンチマークを提案する。このデータセットは、54,951対のリモートセンシング画像とピクセルレベルの一致した深度マップを含んでいる。安定拡散から導かれるリモートセンシング深度推定モデルを導入し,そのマルチモーダル融合機能を利用する。
論文参考訳（メタデータ） (2025-09-23T11:20:51Z)
Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文参考訳（メタデータ） (2025-09-02T17:29:38Z)
Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文参考訳（メタデータ） (2025-07-24T14:53:26Z)
Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting [27.45827655042124]
3Dガウススプレイティングを用いたロボットマニピュレータの能動的次ベストビューとタッチ選択のためのフレームワーク(3DGS)を提案する。我々はまず,新しい意味深度アライメント法により,数発の3DGSの性能を向上する。次に、3DGSの次のベストビュー選択方法であるFisherRFを拡張して、奥行きの不確実性に基づいたビューとタッチポーズを選択する。
論文参考訳（メタデータ） (2024-10-07T01:24:39Z)
GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization [1.4466437171584356]
3D Gaussian Splatting (3DGS) は、空間的特徴を持つ3次元幾何学とシーンの外観の両方をコンパクトに符号化することができる。モデルの空間的理解を改善するために,高密度キーポイント記述子を3DGSに蒸留することを提案する。提案手法はNeRFMatchやPNeRFLocなど,最先端のニューラル・レンダー・ポース(NRP)法を超越した手法である。
論文参考訳（メタデータ） (2024-09-24T23:18:32Z)
PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本稿では,現在のアプローチよりも優れた空間感性プルーニングスコアを提案する。また,事前学習した任意の3D-GSモデルに適用可能なマルチラウンドプルーファインパイプラインを提案する。我々のパイプラインは、3D-GSの平均レンダリング速度を2.65$times$で増加させ、より健全なフォアグラウンド情報を保持します。
論文参考訳（メタデータ） (2024-06-14T17:53:55Z)
Tactile-Augmented Radiance Fields [23.3063261842082]
触覚増強放射場(TaRF)と呼ばれるシーン表現を提示する。この表現は、シーン内の所定の3D位置の視覚的および触覚的な信号を推定するために使用することができる。私たちは、シーンのTaRFを、写真とわずかにサンプルされたタッチプローブの集合から捉えます。
論文参考訳（メタデータ） (2024-05-07T17:59:50Z)
HoloGS: Instant Depth-based 3D Gaussian Splatting with Microsoft HoloLens 2 [1.1874952582465603]
私たちは、Microsoft HoloLens 2の能力をインスタント3Dガウススプレイティングに活用しています。 HoloLensセンサーデータを利用した新しいワークフローであるHoloGSを紹介し、前処理ステップの必要性を回避した。文化遺産像の屋外シーンと細構造植物室内シーンの2つの自撮りシーンに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-05-03T11:08:04Z)
MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文参考訳（メタデータ） (2024-04-01T04:57:41Z)
Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces [34.831730064258494]
本研究では,タッチデータ(局所深度マップ)を多視点視覚データと組み合わせ,表面再構成と新しいビュー合成を実現する新しいアプローチである触覚インフォームド3DGSを提案する。タッチ位置の透過率を低下させる枠組みを作成することにより,表面の微細化を実現し,均一に滑らかな深度マップを実現する。我々は、光沢と反射面を有する物体に対して評価を行い、我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-03-29T16:30:17Z)
HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文参考訳（メタデータ） (2024-03-19T13:39:05Z)
SCONE: Surface Coverage Optimization in Unknown Environments by Volumetric Integration [23.95135709027516]
次回ベストビュー計算(NBV)は、ロボット工学における長年の問題である。体積表現上でモンテカルロ積分により表面積を最大化できることが示される。入力はLidarシステムのような深度センサーで収集された任意の大きさの点雲と、カメラのポーズでNBVを予測する。
論文参考訳（メタデータ） (2022-08-22T17:04:14Z)
Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文参考訳（メタデータ） (2022-07-06T08:52:12Z)
Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文参考訳（メタデータ） (2021-08-12T15:22:33Z)
Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文参考訳（メタデータ） (2020-10-08T14:49:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。