論文の概要: Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2410.04680v2
- Date: Wed, 30 Oct 2024 20:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 02:37:51.068217
- Title: Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
- Title(参考訳): 3Dガウス撮影のためのFisherRFによる視覚と触覚のガイド
- Authors: Matthew Strong, Boshu Lei, Aiden Swann, Wen Jiang, Kostas Daniilidis, Monroe Kennedy III,
- Abstract要約: 3Dガウススプレイティングを用いたロボットマニピュレータの能動的次ベストビューとタッチ選択のためのフレームワーク(3DGS)を提案する。
我々はまず,新しい意味深度アライメント法により,数発の3DGSの性能を向上する。
次に、3DGSの次のベストビュー選択方法であるFisherRFを拡張して、奥行きの不確実性に基づいたビューとタッチポーズを選択する。
- 参考スコア(独自算出の注目度): 27.45827655042124
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a framework for active next best view and touch selection for robotic manipulators using 3D Gaussian Splatting (3DGS). 3DGS is emerging as a useful explicit 3D scene representation for robotics, as it has the ability to represent scenes in a both photorealistic and geometrically accurate manner. However, in real-world, online robotic scenes where the number of views is limited given efficiency requirements, random view selection for 3DGS becomes impractical as views are often overlapping and redundant. We address this issue by proposing an end-to-end online training and active view selection pipeline, which enhances the performance of 3DGS in few-view robotics settings. We first elevate the performance of few-shot 3DGS with a novel semantic depth alignment method using Segment Anything Model 2 (SAM2) that we supplement with Pearson depth and surface normal loss to improve color and depth reconstruction of real-world scenes. We then extend FisherRF, a next-best-view selection method for 3DGS, to select views and touch poses based on depth uncertainty. We perform online view selection on a real robot system during live 3DGS training. We motivate our improvements to few-shot GS scenes, and extend depth-based FisherRF to them, where we demonstrate both qualitative and quantitative improvements on challenging robot scenes. For more information, please see our project page at https://arm.stanford.edu/next-best-sense.
- Abstract(参考訳): 本稿では,3Dガウススプラッティング(3DGS)を用いたロボットマニピュレータの能動的次ベストビューとタッチ選択のためのフレームワークを提案する。
3DGSは、フォトリアリスティックと幾何学的精度の両方でシーンを表現できるので、ロボット工学にとって有用な3Dシーン表現として現れつつある。
しかし、3DGSのランダムなビュー選択は、ビューが重複し、冗長であることが多いため、現実のオンラインロボットシーンでは、効率の要求に応じてビューの数が限られている。
この課題に対処するためには、エンド・ツー・エンドのオンライン・トレーニングとアクティブ・ビュー・セレクション・パイプラインを提案する。
まず, ピアソン深度と表面の正規損失を補足し, 実世界のシーンの色と深度を再現するセグメンションアライメントモデル2 (SAM2) を用いて, 新規な意味深度アライメント法を用いて, 数ショット3DGSの性能を向上する。
次に、3DGSの次のベストビュー選択方法であるFisherRFを拡張して、奥行きの不確実性に基づいたビューとタッチポーズを選択する。
実写3DGSトレーニング中に,実際のロボットシステム上でオンラインビュー選択を行う。
我々は、いくつかのGSシーンの改善を動機付け、深度に基づくFisherRFを拡張して、挑戦するロボットシーンの質的および定量的な改善を実証する。
詳細については、プロジェクトのページ(https://arm.stanford.edu/next-best-sense)を参照してください。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D [95.14469865815768]
2Dビジョンモデルは、大規模な2D画像データセットによって実現されるセマンティックセグメンテーション、スタイル転送、シーン編集に使用できる。
しかし、シーン編集のような単一の2Dビジョン演算子を3Dに拡張するには、通常、そのタスクに特化した非常に創造的な方法が必要である。
本稿では,いくつかの視覚モデルによって生成された特徴空間の未知のビューを予測するためのLift3Dを提案する。
問題のあるタスクに特化した最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-27T18:13:16Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Touch-GS: Visual-Tactile Supervised 3D Gaussian Splatting [13.895893586777802]
光触覚センサを用いた3次元ガウス撮影シーンの監視手法を提案する。
我々は、DenseTact光触覚センサとRealSense RGB-Dカメラを活用し、この方法でタッチとビジョンを組み合わせることで、視覚やタッチ単独よりも定量的に質的に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-03-14T21:09:59Z) - 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations [19.914227905704102]
3Dロボットポリシーは、1つまたは複数のカメラビューから集約された3Dシーンの特徴表現を使用する。
本稿では,新しい3Dデノナイジング変換器を備えたニューラルポリシーである3Dディフューザー・アクターを提案する。
現在のSOTAよりも18.1%向上したRLBenchに新たな最先端技術が設定されている。
また、いくつかのデモから現実世界のロボットマニピュレータの制御も学んでいる。
論文 参考訳(メタデータ) (2024-02-16T18:43:02Z) - Rig3DGS: Creating Controllable Portraits from Casual Monocular Videos [33.779636707618785]
我々はRig3DGSを導入し、カジュアルなスマートフォンビデオからコントロール可能な3D人間の肖像画を作成する。
鍵となる革新は、慎重に設計された変形法であり、3次元形態素モデルから派生した学習可能な先行モデルによって導かれる。
定量的および定性的な実験によって学習した変形の有効性を実証する。
論文 参考訳(メタデータ) (2024-02-06T05:40:53Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。