論文の概要: Active Cross-Modal Visuo-Tactile Perception of Deformable Linear Objects
- arxiv url: http://arxiv.org/abs/2601.13979v1
- Date: Tue, 20 Jan 2026 13:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.865561
- Title: Active Cross-Modal Visuo-Tactile Perception of Deformable Linear Objects
- Title(参考訳): 変形可能な線形物体の能動的クロスモーダルビジュオ触覚知覚
- Authors: Raffaele Mazza, Ciro Natale, Pietro Falco,
- Abstract要約: 本稿では,変形可能な線形物体(DLO)の3次元形状再構成のためのクロスモーダルビズオ触覚認識フレームワークを提案する。
視覚に大きく依存する既存の手法とは異なり、提案手法は基礎モデルに基づく視覚知覚と適応探索を統合している。
以上の結果から,本フレームワークは,大部分閉塞しても,単純・高度に湾曲した単線または複数本のケーブル構成を正確に再構築することを示した。
- 参考スコア(独自算出の注目度): 1.9735804580163874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel cross-modal visuo-tactile perception framework for the 3D shape reconstruction of deformable linear objects (DLOs), with a specific focus on cables subject to severe visual occlusions. Unlike existing methods relying predominantly on vision, whose performance degrades under varying illumination, background clutter, or partial visibility, the proposed approach integrates foundation-model-based visual perception with adaptive tactile exploration. The visual pipeline exploits SAM for instance segmentation and Florence for semantic refinement, followed by skeletonization, endpoint detection, and point-cloud extraction. Occluded cable segments are autonomously identified and explored with a tactile sensor, which provides local point clouds that are merged with the visual data through Euclidean clustering and topology-preserving fusion. A B-spline interpolation driven by endpoint-guided point sorting yields a smooth and complete reconstruction of the cable shape. Experimental validation using a robotic manipulator equipped with an RGB-D camera and a tactile pad demonstrates that the proposed framework accurately reconstructs both simple and highly curved single or multiple cable configurations, even when large portions are occluded. These results highlight the potential of foundation-model-enhanced cross-modal perception for advancing robotic manipulation of deformable objects.
- Abstract(参考訳): 本稿では,変形可能な線形物体(DLO)の3次元形状再構成のためのクロスモーダルな触覚認識フレームワークを提案する。
視覚に大きく依存する既存の手法とは異なり、提案手法は基礎モデルに基づく視覚認識と適応的な触覚探索を統合している。
ビジュアルパイプラインはSAMをセグメンテーションやFlorenceのセグメンテーションに利用し、続いてスケルトン化、エンドポイント検出、ポイントクラウド抽出を行う。
集積ケーブルセグメントは、ユークリッドクラスタリングとトポロジー保存融合を通じて視覚データとマージされた局所点雲を提供する触覚センサで自律的に識別され、探索される。
終端誘導点ソートにより駆動されるB-スプライン補間は、ケーブル形状の滑らかで完全な再構成をもたらす。
RGB-Dカメラと触覚パッドを備えたロボットマニピュレータを用いた実験的な検証により,提案手法は,大部分閉塞しても,単純かつ高度に湾曲した単線または複数本のケーブル構成を正確に再構築することを示した。
これらの結果は、変形可能な物体のロボット操作を前進させる基礎モデルによるクロスモーダル認識の可能性を強調している。
関連論文リスト
- LSP-ST: Ladder Shape-Biased Side-Tuning for Robust Infrared Small Target Detection [4.5138645285711165]
LSP-ST(Ladder Shape-Biased Side-Tuning)を提案する。
学習可能なパラメータは4.72Mしかなく、LSP-STは複数の赤外線小ターゲット検出ベンチマークで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - SPAC-Net: Rethinking Point Cloud Completion with Structural Prior [17.334882020068697]
ポイント雲の完成は、その部分的な観測から完全な形状を推測することを目的としている。
多くのアプローチは純粋なエンコーダデコーダパラダイムを利用しており、部分スキャンから学習した形状の先行によって完全な形状を直接予測することができる。
本研究では,新しい構造的事前指導の下で完了作業を再考することを目的とした新しいフレームワークSPAC-Netを提案する。
論文 参考訳(メタデータ) (2024-11-22T16:54:17Z) - VortSDF: 3D Modeling with Centroidal Voronoi Tesselation on Signed Distance Field [5.573454319150408]
四面体グリッド上での3次元形状特性を推定するために,明示的なSDFフィールドと浅いカラーネットワークを組み合わせた体積最適化フレームワークを提案する。
Chamfer統計による実験結果は、オブジェクト、オープンシーン、人間などの様々なシナリオにおいて、前例のない復元品質でこのアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T09:46:39Z) - KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation [87.23575166061413]
KP-RED は KeyPoint 主導の Retrieval and deformation フレームワークである。
オブジェクトスキャンを入力として、最も幾何学的に類似したCADモデルを共同で検索し、変形させる。
論文 参考訳(メタデータ) (2024-03-15T08:44:56Z) - PointOBB: Learning Oriented Object Detection via Single Point
Supervision [55.88982271340328]
本稿では,オブジェクト指向物体検出のための最初の単一点ベース OBB 生成法である PointOBB を提案する。
PointOBBは、オリジナルビュー、リサイズビュー、ローテーション/フリップ(rot/flp)ビューの3つのユニークなビューの協調利用を通じて動作する。
DIOR-RとDOTA-v1.0データセットの実験結果は、PointOBBが有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2023-11-23T15:51:50Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Active 3D Shape Reconstruction from Vision and Touch [66.08432412497443]
人間は、視覚と触覚を共同で利用して、活発な物体探索を通じて世界の3D理解を構築する。
3次元形状の再構成では、最新の進歩はRGB画像、深度マップ、触覚読影などの限られた感覚データの静的データセットに依存している。
1)高空間分解能視覚に基づく触覚センサを応用した3次元物体のアクティブタッチに活用した触覚シミュレータ,2)触覚やビジュオクティビティルを先導するメッシュベースの3次元形状再構成モデル,3)触覚やビジュオのいずれかを用いたデータ駆動型ソリューションのセットからなるシステムを導入する。
論文 参考訳(メタデータ) (2021-07-20T15:56:52Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。