論文の概要: FusionSense: Bridging Common Sense, Vision, and Touch for Robust Sparse-View Reconstruction
- arxiv url: http://arxiv.org/abs/2410.08282v1
- Date: Thu, 10 Oct 2024 18:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 04:16:13.245446
- Title: FusionSense: Bridging Common Sense, Vision, and Touch for Robust Sparse-View Reconstruction
- Title(参考訳): FusionSense:ロバストなスパースビューリコンストラクションのためのコモンセンス、ビジョン、タッチをブリッジする
- Authors: Irving Fang, Kairui Shi, Xujin He, Siqi Tan, Yifan Wang, Hanwen Zhao, Hung-Jui Huang, Wenzhen Yuan, Chen Feng, Jing Zhang,
- Abstract要約: 人間は、常識の知識を視覚や触覚からの感覚入力と密接に統合し、周囲を理解する。
FusionSenseは、ロボットが視覚や触覚センサーから高度に疎らな観察を行い、基礎モデルから事前情報を融合することのできる、新しい3D再構成フレームワークである。
- 参考スコア(独自算出の注目度): 17.367277970910813
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humans effortlessly integrate common-sense knowledge with sensory input from vision and touch to understand their surroundings. Emulating this capability, we introduce FusionSense, a novel 3D reconstruction framework that enables robots to fuse priors from foundation models with highly sparse observations from vision and tactile sensors. FusionSense addresses three key challenges: (i) How can robots efficiently acquire robust global shape information about the surrounding scene and objects? (ii) How can robots strategically select touch points on the object using geometric and common-sense priors? (iii) How can partial observations such as tactile signals improve the overall representation of the object? Our framework employs 3D Gaussian Splatting as a core representation and incorporates a hierarchical optimization strategy involving global structure construction, object visual hull pruning and local geometric constraints. This advancement results in fast and robust perception in environments with traditionally challenging objects that are transparent, reflective, or dark, enabling more downstream manipulation or navigation tasks. Experiments on real-world data suggest that our framework outperforms previously state-of-the-art sparse-view methods. All code and data are open-sourced on the project website.
- Abstract(参考訳): 人間は、常識の知識を視覚や触覚からの感覚入力と密接に統合し、周囲を理解する。
この機能を模倣したFusionSenseは、ロボットが視覚や触覚センサーから疎らな観察を行い、基礎モデルから事前情報を融合することのできる、新しい3D再構成フレームワークである。
FusionSenseは3つの課題に対処する。
一 ロボットは、周囲のシーンや物体に関する堅牢なグローバルな形状情報を効率的に取得することができるか。
二 幾何学的・常識的事前情報を用いて、ロボットが物体のタッチポイントを戦略的に選択する方法
三 触覚信号等の部分的な観察は、対象物の全体像をどのように改善することができるか。
本フレームワークでは,3次元ガウススプラッティングを基本表現とし,大域的構造構築,物体の視覚的包絡加工,局所的幾何学的制約を含む階層的最適化戦略を取り入れている。
この進歩は、従来は透明で反射性があり、暗く、より下流での操作やナビゲーション作業を可能にしていた環境において、高速で堅牢な認識をもたらす。
実世界のデータに関する実験から、我々のフレームワークは以前最先端のスパースビュー手法よりも優れていたことが示唆されている。
すべてのコードとデータはプロジェクトのWebサイトで公開されている。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - ImageManip: Image-based Robotic Manipulation with Affordance-guided Next
View Selection [10.162882793554191]
ロボットが環境と対話するためには、3Dの関節による物体操作が不可欠である。
既存の多くの研究では、操作ポリシーの主要な入力として3Dポイントクラウドを使用している。
RGB画像は、コスト効率の良い装置を用いた高分解能な観察を提供するが、空間的3次元幾何学的情報は欠如している。
このフレームワークは、対象対象物の複数の視点を捉え、その幾何学を補完するために深度情報を推測するように設計されている。
論文 参考訳(メタデータ) (2023-10-13T12:42:54Z) - Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and
3D Localization [13.473742114288616]
既知の環境下でオブジェクトを自律的に検出・ローカライズするフレームワークを提案する。
フレームワークは,RGBデータによる環境理解,マルチモーダルセンサ融合による深度推定,アーティファクト管理という,3つの重要な要素で構成されている。
実験の結果,提案フレームワークは実サンプル環境におけるオブジェクトの98%を後処理なしで正確に検出できることがわかった。
論文 参考訳(メタデータ) (2023-07-03T15:51:39Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Active 3D Shape Reconstruction from Vision and Touch [66.08432412497443]
人間は、視覚と触覚を共同で利用して、活発な物体探索を通じて世界の3D理解を構築する。
3次元形状の再構成では、最新の進歩はRGB画像、深度マップ、触覚読影などの限られた感覚データの静的データセットに依存している。
1)高空間分解能視覚に基づく触覚センサを応用した3次元物体のアクティブタッチに活用した触覚シミュレータ,2)触覚やビジュオクティビティルを先導するメッシュベースの3次元形状再構成モデル,3)触覚やビジュオのいずれかを用いたデータ駆動型ソリューションのセットからなるシステムを導入する。
論文 参考訳(メタデータ) (2021-07-20T15:56:52Z) - 3D Shape Reconstruction from Vision and Touch [62.59044232597045]
3次元形状再構成では、視覚と触覚の相補的な融合はほとんど未解明のままである。
本稿では,ロボットハンドと多数の3Dオブジェクトの相互作用から,触覚と視覚信号のシミュレーションデータセットを提案する。
論文 参考訳(メタデータ) (2020-07-07T20:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。