論文の概要: Omni-Scan: Creating Visually-Accurate Digital Twin Object Models Using a Bimanual Robot with Handover and Gaussian Splat Merging
- arxiv url: http://arxiv.org/abs/2508.00354v1
- Date: Fri, 01 Aug 2025 06:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.75589
- Title: Omni-Scan: Creating Visually-Accurate Digital Twin Object Models Using a Bimanual Robot with Handover and Gaussian Splat Merging
- Title(参考訳): Omni-Scan: ハンドオーバとガウススプラットを併用した双対ロボットによる視覚的精度の高いデジタル双対物体モデルの作成
- Authors: Tianshuang Qiu, Zehan Ma, Karim El-Refai, Hiya Shah, Chung Min Kim, Justin Kerr, Ken Goldberg,
- Abstract要約: デジタルツイン」はシミュレーション、バーチャルリアリティ、マーケティング、ロボットポリシーの微調整、部分検査に有用である。
オムニ・スキャン(Omni-Scan)は、物体を1つのグリップでつかみ、静止カメラで物体を回転させるバイマニュアルロボットを用いて、高品質な3Dガウススプラモデルを生成するパイプラインである。
ロボットグリップが保持する物体を識別・分離するために,DepthAny-thing, Segment Anything, RAFT光フローモデルを用いたOmni-Scanロボットパイプラインを提案する。
- 参考スコア(独自算出の注目度): 17.607640140471936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Gaussian Splats (3DGSs) are 3D object models derived from multi-view images. Such "digital twins" are useful for simulations, virtual reality, marketing, robot policy fine-tuning, and part inspection. 3D object scanning usually requires multi-camera arrays, precise laser scanners, or robot wrist-mounted cameras, which have restricted workspaces. We propose Omni-Scan, a pipeline for producing high-quality 3D Gaussian Splat models using a bi-manual robot that grasps an object with one gripper and rotates the object with respect to a stationary camera. The object is then re-grasped by a second gripper to expose surfaces that were occluded by the first gripper. We present the Omni-Scan robot pipeline using DepthAny-thing, Segment Anything, as well as RAFT optical flow models to identify and isolate objects held by a robot gripper while removing the gripper and the background. We then modify the 3DGS training pipeline to support concatenated datasets with gripper occlusion, producing an omni-directional (360 degree view) model of the object. We apply Omni-Scan to part defect inspection, finding that it can identify visual or geometric defects in 12 different industrial and household objects with an average accuracy of 83%. Interactive videos of Omni-Scan 3DGS models can be found at https://berkeleyautomation.github.io/omni-scan/
- Abstract(参考訳): 3Dガウススプレート(3DGS)は、多視点画像から派生した3Dオブジェクトモデルである。
このような「デジタルツイン」はシミュレーション、バーチャルリアリティ、マーケティング、ロボットポリシーの微調整、部分検査に有用である。
3Dオブジェクトスキャンは通常、ワークスペースが制限されたマルチカメラアレイ、精密レーザースキャナー、ロボット手首搭載カメラを必要とする。
オムニ・スキャン(Omni-Scan)は、物体を1つのグリップでつかみ、静止カメラで物体を回転させるバイマニュアルロボットを用いて、高品質な3Dガウススプラモデルを生成するパイプラインである。
その後、物体は第2のグリップによって再彫刻され、第1のグリップによって遮蔽された表面が露出する。
ロボットグリップが保持する物体を識別・分離するために,DepthAny-thing, Segment Anything, RAFT光フローモデルを用いたOmni-Scanロボットパイプラインを提案する。
次に、3DGSトレーニングパイプラインを変更して、グリップ閉塞を伴う連結データセットをサポートし、オブジェクトの全方向(360度ビュー)モデルを生成する。
我々はOmni-Scanを欠陥検査に適用し,12種類の産業・家庭の物体の視覚的・幾何学的欠陥を平均83%の精度で識別できることを見出した。
Omni-Scan 3DGSモデルのインタラクティブビデオはhttps://berkeleyautomation.github.io/omni-scan/で見ることができる。
関連論文リスト
- VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning [67.61509647032862]
入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。
入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
論文 参考訳(メタデータ) (2023-12-14T08:39:39Z) - A System for Generalized 3D Multi-Object Search [10.40566214112389]
GenMOSは、ロボットに依存しない環境に依存しない3D領域における多目的探索のための汎用システムである。
例えば、Boston Dynamics Spotロボットは、ソファの下に隠れているおもちゃの猫を1分以内に見つけることができる。
論文 参考訳(メタデータ) (2023-03-06T14:47:38Z) - Aerial Monocular 3D Object Detection [67.20369963664314]
DVDETは2次元画像空間と3次元物理空間の両方で空中単分子3次元物体検出を実現するために提案される。
高度視差変形問題に対処するため,新しい測地変形変換モジュールを提案する。
より多くの研究者がこの領域を調査するよう促すため、データセットと関連するコードをリリースします。
論文 参考訳(メタデータ) (2022-08-08T08:32:56Z) - Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild [32.05421669957098]
大規模なデータセットとスケーラブルなソリューションは、2D認識において前例のない進歩をもたらした。
我々はOmni3Dと呼ばれる大規模なベンチマークを導入することで3Dオブジェクト検出の課題を再考する。
より大規模なOmni3Dおよび既存のベンチマークにおいて、Cube R-CNNが以前の作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:56:22Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。