Fugu-MT 論文翻訳(概要): STOPNet: Multiview-based 6-DoF Suction Detection for Transparent Objects on Production Lines

論文の概要: STOPNet: Multiview-based 6-DoF Suction Detection for Transparent Objects on Production Lines

arxiv url: http://arxiv.org/abs/2310.05717v1
Date: Mon, 9 Oct 2023 13:39:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 04:37:24.748941
Title: STOPNet: Multiview-based 6-DoF Suction Detection for Transparent Objects on Production Lines
Title（参考訳）: STOPNet:生産ライン上の透明物体に対する多視点6-DoF吸引検出
Authors: Yuxuan Kuang, Qin Han, Danshi Li, Qiyu Dai, Lian Ding, Dong Sun, Hanlin Zhao, He Wang
Abstract要約: STOPNetは生産ライン上での6-DoFオブジェクトの吸引検出のためのフレームワークである。本稿では,マルチビューステレオに基づくRGB入力のみに依存して,生産ライン上のシーンを再構築する新しいフレームワークを提案する。本手法は,シミュレーションと実世界の両方において,新しい環境,新しいアレンジ,新しいオブジェクトに一般化する。
参考スコア（独自算出の注目度）: 9.258345770382688
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present STOPNet, a framework for 6-DoF object suction detection on production lines, with a focus on but not limited to transparent objects, which is an important and challenging problem in robotic systems and modern industry. Current methods requiring depth input fail on transparent objects due to depth cameras' deficiency in sensing their geometry, while we proposed a novel framework to reconstruct the scene on the production line depending only on RGB input, based on multiview stereo. Compared to existing works, our method not only reconstructs the whole 3D scene in order to obtain high-quality 6-DoF suction poses in real time but also generalizes to novel environments, novel arrangements and novel objects, including challenging transparent objects, both in simulation and the real world. Extensive experiments in simulation and the real world show that our method significantly surpasses the baselines and has better generalizability, which caters to practical industrial needs.
Abstract（参考訳）: 本研究では,ロボットシステムや現代産業において重要な課題である透明物体に限らず,生産ライン上での6-DoFオブジェクト吸引検出のためのフレームワークSTOPNetを提案する。近年では,深度カメラの形状認識が不足しているため,透明物体に対して深度入力を必要とする手法が提案されているが,マルチビューステレオを用いて,rgb入力のみに応じてシーンを再現する新たな枠組みが提案されている。既存の作品と比較して, 高品質な6自由度吸入ポーズをリアルタイムで得るために3次元シーン全体を再構成するだけでなく, シミュレーションと実世界の両方において, 新たな環境や新しいアレンジメント, 挑戦的な透明物体を含む新しい物体に一般化する。シミュレーションと実世界における大規模な実験により,本手法は基礎をはるかに上回り,実用的産業ニーズに適合する優れた一般化性を有することが示された。

関連論文リスト

Online 3D Scene Reconstruction Using Neural Object Priors [83.14204014687938]
本稿では,RGB-Dビデオシーケンスが与えられたオブジェクトのレベルにおいて,オンラインでシーンを再構成する問題に対処する。本稿では,新しい対象部品が明らかになれば,オブジェクト中心の暗黙表現を継続的に更新する特徴グリッド機構を提案する。提案手法は, 再建精度と完全性の観点から, 最先端のニューラル暗黙モデルより優れている。
論文参考訳（メタデータ） (2025-03-24T17:09:36Z)
HOMER: Homography-Based Efficient Multi-view 3D Object Removal [25.832938786291358]
3Dオブジェクトの除去は、3Dシーン編集において重要なサブタスクであり、シーン理解、拡張現実、ロボット工学に広く応用されている。既存の手法は、複数ビュー設定における一貫性、ユーザビリティ、計算効率の相違点を達成するのに苦労する。マルチビューオブジェクトマスク生成とインペイントの質と効率を向上する新しいパイプラインを提案する。
論文参考訳（メタデータ） (2025-01-29T13:12:06Z)
MObI: Multimodal Object Inpainting Using Diffusion Models [52.07640413626605]
マルチモーダル・オブジェクト・インペイントのための新しいフレームワークであるMObIを紹介する。単一の参照RGBイメージを使用して、MObIは既存のマルチモーダルシーンにオブジェクトをシームレスに挿入できる。マスクの編集だけに頼っている従来の塗り絵とは違って、3Dバウンディングボックスコンディショニングは、オブジェクトの正確な空間的位置決めとリアルなスケーリングを可能にします。
論文参考訳（メタデータ） (2025-01-06T17:43:26Z)
Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文参考訳（メタデータ） (2024-12-06T16:12:38Z)
ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation [18.140839442955485]
我々は透明物体の立体深度回復のための視覚変換器に基づくアルゴリズムを開発した。提案手法は,効率的なデータ生成のためのパラメータ整合,ドメイン適応,物理的に現実的なSim2Realシミュレーションを含む。実世界のシナリオにおけるSim2Realの例外的な一般化性を示す実験結果を得た。
論文参考訳（メタデータ） (2024-09-13T15:44:38Z)
Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文参考訳（メタデータ） (2024-03-21T10:38:18Z)
Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。 COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文参考訳（メタデータ） (2024-03-07T00:00:02Z)
Tabletop Transparent Scene Reconstruction via Epipolar-Guided Optical Flow with Monocular Depth Completion Prior [14.049778178534588]
モバイルプラットフォームに適した透明なオブジェクトを再構築するための2段階パイプラインを導入する。 EOF(Epipolar-Guided Optical Flow)は、一貫した3次元再構成に先立って複数の単一視野形状を融合する。パイプラインは, 3次元再構成品質において, ベースライン法を著しく上回っている。
論文参考訳（メタデータ） (2023-10-15T21:30:06Z)
Self-supervised novel 2D view synthesis of large-scale scenes with efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-06-26T13:57:05Z)
Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文参考訳（メタデータ） (2023-04-19T16:39:51Z)
GraspNeRF: Multiview-based 6-DoF Grasp Detection for Transparent and Specular Objects Using Generalizable NeRF [7.47805672405939]
本稿では,マルチビューRGBベースの6-DoFグリップ検出ネットワークGraspNeRFを提案する。既存のNeRFベースの3-DoFグリップ検出手法と比較して,RGB入力の少ないゼロショットNeRF構成を実現し,リアルタイムに6-DoFグリップを確実に検出できる。学習データには, 散らばったテーブルトップシーンで把握する大規模フォトリアリスティックなドメインランダム化合成データセットを生成する。
論文参考訳（メタデータ） (2022-10-12T20:31:23Z)
SimNet: Enabling Robust Unknown Object Manipulation from Pure Synthetic Data via Stereo [4.317104502755003]
SimNetは、シミュレーションステレオデータを使用して、単一のマルチヘッドニューラルネットワークとして訓練されている。 SimNetは2次元車検出、未知の物体検出、変形可能な物体キーポイント検出で評価される。 OBBとキーポイント予測を用いて把握位置を推定することにより、未知のオブジェクトのエンドツーエンド操作を行うことができる。
論文参考訳（メタデータ） (2021-06-30T15:18:14Z)
Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文参考訳（メタデータ） (2021-03-30T17:57:01Z)
Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文参考訳（メタデータ） (2020-04-28T08:15:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。