論文の概要: Tactile-Augmented Radiance Fields
- arxiv url: http://arxiv.org/abs/2405.04534v1
- Date: Tue, 7 May 2024 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:11:46.796257
- Title: Tactile-Augmented Radiance Fields
- Title(参考訳): 触覚増強放射場
- Authors: Yiming Dou, Fengyu Yang, Yi Liu, Antonio Loquercio, Andrew Owens,
- Abstract要約: 触覚増強放射場(TaRF)と呼ばれるシーン表現を提示する。
この表現は、シーン内の所定の3D位置の視覚的および触覚的な信号を推定するために使用することができる。
私たちは、シーンのTaRFを、写真とわずかにサンプルされたタッチプローブの集合から捉えます。
- 参考スコア(独自算出の注目度): 23.3063261842082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a scene representation, which we call a tactile-augmented radiance field (TaRF), that brings vision and touch into a shared 3D space. This representation can be used to estimate the visual and tactile signals for a given 3D position within a scene. We capture a scene's TaRF from a collection of photos and sparsely sampled touch probes. Our approach makes use of two insights: (i) common vision-based touch sensors are built on ordinary cameras and thus can be registered to images using methods from multi-view geometry, and (ii) visually and structurally similar regions of a scene share the same tactile features. We use these insights to register touch signals to a captured visual scene, and to train a conditional diffusion model that, provided with an RGB-D image rendered from a neural radiance field, generates its corresponding tactile signal. To evaluate our approach, we collect a dataset of TaRFs. This dataset contains more touch samples than previous real-world datasets, and it provides spatially aligned visual signals for each captured touch signal. We demonstrate the accuracy of our cross-modal generative model and the utility of the captured visual-tactile data on several downstream tasks. Project page: https://dou-yiming.github.io/TaRF
- Abstract(参考訳): 視覚と触覚を共有空間にもたらす触覚増強放射場(TaRF)を提示する。
この表現は、シーン内の所定の3D位置の視覚的および触覚的な信号を推定するために使用することができる。
私たちは、シーンのTaRFを、写真とわずかにサンプルされたタッチプローブの集合から捉えます。
私たちのアプローチには2つの洞察があります。
(i)一般的な視覚型タッチセンサは、通常のカメラ上に構築されており、多視点幾何法を用いて画像に登録することができる。
(II)シーンの視覚的・構造的に類似した領域は、同じ触覚的特徴を有する。
これらの知見を用いて、捕捉された視覚シーンにタッチ信号を登録し、ニューラル放射場からレンダリングされたRGB-D画像が対応する触覚信号を生成する条件拡散モデルを訓練する。
提案手法を評価するために,TaRFのデータセットを収集する。
このデータセットは、以前の実世界のデータセットよりも多くのタッチサンプルを含み、キャプチャされた各タッチ信号に対して空間的に整列された視覚信号を提供する。
本稿では,複数の下流タスクにおいて得られた視覚触覚データの有用性と,モダクティブモデルの有効性を実証する。
プロジェクトページ: https://dou-yiming.github.io/TaRF
関連論文リスト
- Touch-GS: Visual-Tactile Supervised 3D Gaussian Splatting [13.895893586777802]
光触覚センサを用いた3次元ガウス撮影シーンの監視手法を提案する。
我々は、DenseTact光触覚センサとRealSense RGB-Dカメラを活用し、この方法でタッチとビジョンを組み合わせることで、視覚やタッチ単独よりも定量的に質的に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-03-14T21:09:59Z) - TouchSDF: A DeepSDF Approach for 3D Shape Reconstruction using
Vision-Based Tactile Sensing [29.691786688595762]
人間は視覚と触覚に頼り、身体環境の総合的な3D理解を開発する。
触覚3次元形状再構成のための深層学習手法であるTouchSDFを提案する。
本手法は,(1)触覚画像をタッチ位置の局所メッシュにマッピングする畳み込みニューラルネットワーク,(2)署名された距離関数を予測して所望の3次元形状を抽出する暗黙的ニューラルネットワークの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-11-21T13:43:06Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Implicit Ray-Transformers for Multi-view Remote Sensing Image
Segmentation [26.726658200149544]
スパースラベル付きRSシーンセマンティックセグメンテーションのためのインプリシティ・ニューラル表現(INR)に基づく「インプリシティ・レイ・トランスフォーマ(IRT)」を提案する。
提案手法は,2段階の学習プロセスを含む。第1段階では,リモートセンシングシーンの色と3次元構造を符号化するために,ニューラルネットワークを最適化する。
第2段階では、ニューラルネットワークの3D特徴と2Dテクスチャ特徴の関係を利用して、より優れた意味表現を学習するレイ変換器を設計する。
論文 参考訳(メタデータ) (2023-03-15T07:05:07Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Coordinates Are NOT Lonely -- Codebook Prior Helps Implicit Neural 3D
Representations [29.756718435405983]
暗黙的な3D表現は、表面やシーンの再構築や新しいビュー合成において、印象的な成果を上げている。
ニューラル・レージアンス・フィールド(Neural Radiance Field、NeRF)とその変種のような既存のアプローチは、通常、密度の高い入力ビューを必要とする。
暗黙的な3次元表現のための座標モデルCoCo-INRを提案する。
論文 参考訳(メタデータ) (2022-10-20T11:13:50Z) - PeRFception: Perception using Radiance Fields [72.99583614735545]
私たちは、PeRFceptionと呼ばれる知覚タスクのための、最初の大規模な暗黙的表現データセットを作成します。
元のデータセットからかなりのメモリ圧縮率 (96.4%) を示し、2D情報と3D情報の両方を統一形式で格納している。
この暗黙の形式を直接入力する分類とセグメンテーションモデルを構築し、画像の背景に過度に収まらないよう、新しい拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-24T13:32:46Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Supervising Remote Sensing Change Detection Models with 3D Surface
Semantics [1.8782750537161614]
光RGBと地上レベル(AGL)マップペアを用いた共同学習のためのコントラスト表面画像事前学習(CSIP)を提案する。
次に、これらの事前訓練されたモデルをいくつかの建物セグメンテーションおよび変更検出データセット上で評価し、実際に、下流アプリケーションに関連する特徴を抽出することを示す。
論文 参考訳(メタデータ) (2022-02-26T23:35:43Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。