論文の概要: UniStateDLO: Unified Generative State Estimation and Tracking of Deformable Linear Objects Under Occlusion for Constrained Manipulation
- arxiv url: http://arxiv.org/abs/2512.17764v1
- Date: Fri, 19 Dec 2025 16:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.433738
- Title: UniStateDLO: Unified Generative State Estimation and Tracking of Deformable Linear Objects Under Occlusion for Constrained Manipulation
- Title(参考訳): UniStateDLO:制約操作による変形可能な線形物体の統一生成状態推定と追跡
- Authors: Kangchen Lv, Mingrui Yu, Shihefeng Wang, Xiangyang Ji, Xiang Li,
- Abstract要約: 変形可能な線形物体(DLO)の知覚は下流操作を成功させる基盤となる。
本稿では,深層学習を用いた最初の完全DLO認識パイプラインUniStateDLOを提案する。
- 参考スコア(独自算出の注目度): 45.803487170590266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perception of deformable linear objects (DLOs), such as cables, ropes, and wires, is the cornerstone for successful downstream manipulation. Although vision-based methods have been extensively explored, they remain highly vulnerable to occlusions that commonly arise in constrained manipulation environments due to surrounding obstacles, large and varying deformations, and limited viewpoints. Moreover, the high dimensionality of the state space, the lack of distinctive visual features, and the presence of sensor noises further compound the challenges of reliable DLO perception. To address these open issues, this paper presents UniStateDLO, the first complete DLO perception pipeline with deep-learning methods that achieves robust performance under severe occlusion, covering both single-frame state estimation and cross-frame state tracking from partial point clouds. Both tasks are formulated as conditional generative problems, leveraging the strong capability of diffusion models to capture the complex mapping between highly partial observations and high-dimensional DLO states. UniStateDLO effectively handles a wide range of occlusion patterns, including initial occlusion, self-occlusion, and occlusion caused by multiple objects. In addition, it exhibits strong data efficiency as the entire network is trained solely on a large-scale synthetic dataset, enabling zero-shot sim-to-real generalization without any real-world training data. Comprehensive simulation and real-world experiments demonstrate that UniStateDLO outperforms all state-of-the-art baselines in both estimation and tracking, producing globally smooth yet locally precise DLO state predictions in real time, even under substantial occlusions. Its integration as the front-end module in a closed-loop DLO manipulation system further demonstrates its ability to support stable feedback control in complex, constrained 3-D environments.
- Abstract(参考訳): ケーブル、ロープ、ワイヤなどの変形可能な線形物体(DLO)の知覚は、下流での操作を成功させる基盤となる。
視覚に基づく手法は広範に研究されてきたが、周囲の障害物や大きな変形、限られた視点による制約のある操作環境において、一般的に発生するオクルージョンに対して非常に脆弱なままである。
さらに、状態空間の高次元性、視覚的特徴の欠如、センサノイズの存在は、信頼性の高いDLO知覚の課題をさらに複雑にする。
このようなオープンな問題に対処するため,本研究では,一フレーム状態推定と部分点クラウドからのクロスフレーム状態追跡の両方を対象とする,高度閉塞下で堅牢な性能を実現するディープラーニング手法を備えた,最初の完全なDLO認識パイプラインであるUniStateDLOを提案する。
両方のタスクは条件付き生成問題として定式化され、拡散モデルの強い能力を利用して、高部分的な観測と高次元DLO状態の間の複雑なマッピングをキャプチャする。
UniStateDLOは、初期閉塞、自己閉塞、複数のオブジェクトによる閉塞を含む幅広い閉塞パターンを効果的に扱う。
さらに、ネットワーク全体が大規模な合成データセットのみに基づいてトレーニングされており、実際のトレーニングデータなしでゼロショットのsim-to-realの一般化を可能にするため、強力なデータ効率を示す。
包括的シミュレーションと実世界の実験により、UniStateDLOは推定と追跡の両方において全ての最先端のベースラインを上回り、大域的にスムーズで局所的に正確なDLO状態の予測をリアルタイムに生成する。
クローズドループDLO操作システムにおけるフロントエンドモジュールとしての統合により、複雑な3次元環境において安定したフィードバック制御をサポートする能力がさらに証明される。
関連論文リスト
- Stereo-Inertial Poser: Towards Metric-Accurate Shape-Aware Motion Capture Using Sparse IMUs and a Single Stereo Camera [54.967647497048205]
本稿では,距離精度と形状を考慮した3次元動作を推定するリアルタイムモーションキャプチャシステムであるStereo-Inertial Poserを提案する。
モノクラーRGBをステレオビジョンに置き換え、直接3次元キーポイント抽出と形状パラメータ推定を可能にした。
ドリフトフリーなグローバル翻訳を長い記録時間で生成し,フットスケート効果を低減させる。
論文 参考訳(メタデータ) (2026-03-02T17:46:38Z) - An Efficient Unsupervised Federated Learning Approach for Anomaly Detection in Heterogeneous IoT Networks [1.1827914375779147]
フェデレートラーニング(FL)はIoT(Internet of Things)のような分散環境に有効なパラダイムである
本稿では、2つの異なるデータセットから共有された特徴を活用することにより、異常検出を効率化する効率的な非教師付きFLフレームワークを提案する。
実世界のIoTデータセットを用いた実験により,提案手法は異常検出精度において従来のFL手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-02-27T17:39:04Z) - Toward Generalizable Deblurring: Leveraging Massive Blur Priors with Linear Attention for Real-World Scenarios [9.82847623835017]
GLOWDeblurは、畳み込みベースの事前再構成とドメインアライメントモジュールと軽量な拡散バックボーンを組み合わせた、一般化可能なreaL-wOrld Light Weight Deblurモデルである。
本稿では,Blur Pattern Pretraining (BPP)を提案する。
我々はさらに、高度劣化下でぼやけた前兆を強化するためにMoSeG(MoSeG)を導入し、それをGLOWDeblur(GLOWDeblur)に統合する。
論文 参考訳(メタデータ) (2026-01-10T11:01:31Z) - Deterministic World Models for Verification of Closed-loop Vision-based Systems [2.5051366017487715]
本稿では,システム状態を直接生成画像にマッピングし,正確な入力境界を確保するための決定論的世界モデル(DWM)を提案する。
我々はDWMをStar-based reachability analysis(StarV)を利用した検証パイプラインに統合し、厳密な統計的境界を導出するために共形予測を用いる。
標準ベンチマーク実験により,提案手法は潜在変数ベースラインよりもはるかに密着性が高く,検証性能も良好であることが示された。
論文 参考訳(メタデータ) (2025-12-08T02:32:07Z) - $\mathcal{E}_0$: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion [65.77755100137728]
本稿では、量子化されたアクショントークンを反復的にデノケーションするアクション生成を定式化する、連続的な離散拡散フレームワークであるE0を紹介する。
E0は14の多様な環境において最先端のパフォーマンスを達成し、平均して10.7%強のベースラインを達成している。
論文 参考訳(メタデータ) (2025-11-26T16:14:20Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文 参考訳(メタデータ) (2023-10-18T03:57:06Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。