論文の概要: Markerless 6D Pose Estimation and Position-Based Visual Servoing for Endoscopic Continuum Manipulators
- arxiv url: http://arxiv.org/abs/2602.16365v1
- Date: Wed, 18 Feb 2026 11:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.584417
- Title: Markerless 6D Pose Estimation and Position-Based Visual Servoing for Endoscopic Continuum Manipulators
- Title(参考訳): 内視鏡的連続マニピュレータのためのマーカーレス6次元姿勢推定と位置ベースビジュアルサーボ
- Authors: Junhyun Park, Chunggil An, Myeongbo Park, Ihsan Ullah, Sihyeong Park, Minho Hwang,
- Abstract要約: 本稿では,マーカーレスステレオ6Dポーズ推定と連続体マニピュレータの位置に基づく視覚サーボのための統合フレームワークを提案する。
フォトリアリスティックシミュレーションパイプラインは、画素精度アノテーションによる大規模自動トレーニングを可能にする。
我々の知る限り、この研究は、連続体マニピュレータのための完全マーカーレスポーズ推定に基づく位置ベース視覚サーボフレームワークを初めて提示する。
- 参考スコア(独自算出の注目度): 3.324399280473623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuum manipulators in flexible endoscopic surgical systems offer high dexterity for minimally invasive procedures; however, accurate pose estimation and closed-loop control remain challenging due to hysteresis, compliance, and limited distal sensing. Vision-based approaches reduce hardware complexity but are often constrained by limited geometric observability and high computational overhead, restricting real-time closed-loop applicability. This paper presents a unified framework for markerless stereo 6D pose estimation and position-based visual servoing of continuum manipulators. A photo-realistic simulation pipeline enables large-scale automatic training with pixel-accurate annotations. A stereo-aware multi-feature fusion network jointly exploits segmentation masks, keypoints, heatmaps, and bounding boxes to enhance geometric observability. To enforce geometric consistency without iterative optimization, a feed-forward rendering-based refinement module predicts residual pose corrections in a single pass. A self-supervised sim-to-real adaptation strategy further improves real-world performance using unlabeled data. Extensive real-world validation achieves a mean translation error of 0.83 mm and a mean rotation error of 2.76° across 1,000 samples. Markerless closed-loop visual servoing driven by the estimated pose attains accurate trajectory tracking with a mean translation error of 2.07 mm and a mean rotation error of 7.41°, corresponding to 85% and 59% reductions compared to open-loop control, together with high repeatability in repeated point-reaching tasks. To the best of our knowledge, this work presents the first fully markerless pose-estimation-driven position-based visual servoing framework for continuum manipulators, enabling precise closed-loop control without physical markers or embedded sensing.
- Abstract(参考訳): フレキシブル内視鏡手術システムにおける連続的マニピュレータは、最小侵襲の手術に対して高いデキスタリティを提供するが、ヒステリシス、コンプライアンス、限られた遠位感覚のために、正確なポーズ推定とクローズドループ制御は難しいままである。
ビジョンベースのアプローチは、ハードウェアの複雑さを減少させるが、しばしば幾何学的観測可能性と高い計算オーバーヘッドによって制約され、リアルタイム閉ループ適用性を制限する。
本稿では,マーカーレスステレオ6Dポーズ推定と連続体マニピュレータの位置に基づく視覚サーボのための統合フレームワークを提案する。
フォトリアリスティックシミュレーションパイプラインは、画素精度アノテーションによる大規模自動トレーニングを可能にする。
ステレオ対応多機能融合ネットワークは、セグメンテーションマスク、キーポイント、ヒートマップ、バウンディングボックスを併用して、幾何学的可観測性を高める。
フィードフォワードレンダリングに基づくリファインメントモジュールは、1回のパスで残留ポーズ補正を予測する。
自己教師型sim-to-realアダプティブ戦略は、ラベルなしデータを用いた実世界のパフォーマンスをさらに向上させる。
大規模な実世界の検証は平均翻訳誤差0.83mm、平均回転誤差2.76°を1,000サンプルで達成している。
推定ポーズによって駆動されるマーカーレス閉ループビジュアルサーボは、平均翻訳誤差2.07 mm、平均回転誤差7.41°で正確な軌道追跡を達成する。
我々の知る限り、この研究は、連続体マニピュレータのための完全マーカーレスポーズ推定に基づく位置ベース視覚サーボフレームワークを初めて提示し、物理的なマーカーや埋め込みセンサーを使わずに正確なクローズドループ制御を可能にした。
関連論文リスト
- Visual Odometry with Transformers [68.453547770334]
特徴抽出により単眼フレームのシーケンスを処理するビジュアル・オドメトリ・トランスフォーマ(VoT)を導入する。
従来の方法とは異なり、VoTは密度の高い幾何学を推定することなくカメラの動きを直接予測し、監視のためにカメラのポーズのみに依存する。
VoTは、より大きなデータセットで効果的にスケールし、より強力なトレーニング済みバックボーンの恩恵を受け、多様なカメラモーションとキャリブレーション設定を一般化し、従来のメソッドよりも3倍以上高速に動作しながらパフォーマンスを向上する。
論文 参考訳(メタデータ) (2025-10-02T17:00:14Z) - Color-Pair Guided Robust Zero-Shot 6D Pose Estimation and Tracking of Cluttered Objects on Edge Devices [4.261261166281339]
本稿では,エッジデバイス上での効率的な実行を目的とした統合フレームワークを提案する。
当社のアプローチの鍵は、ライトと不変なカラーペアの特徴表現の共有です。
最初の見積のために、この機能はライブRGB-Dビューとオブジェクトの3Dメッシュの間の堅牢な登録を容易にする。
追跡に関しては、同じ特徴論理が時間的対応を検証し、軽量モデルが物体の動きを確実に回帰させることができる。
論文 参考訳(メタデータ) (2025-09-28T05:07:49Z) - CalibRefine: Deep Learning-Based Online Automatic Targetless LiDAR-Camera Calibration with Iterative and Attention-Driven Post-Refinement [7.736775961390864]
CalibRefineは完全に自動化され、ターゲットレス、オンラインキャリブレーションフレームワークである。
生のLiDAR点雲とカメラ画像を直接処理する。
以上の結果から,頑健なオブジェクトレベルの特徴マッチングと反復的改善と自己監督的注意に基づく改善が組み合わさって,信頼性の高いセンサアライメントを実現することが示唆された。
論文 参考訳(メタデータ) (2025-02-24T20:53:42Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Improving Gaussian Splatting with Localized Points Management [52.009874685460694]
局所的点管理(LPM)は、点加算と幾何校正の両方を最大限に必要としながら、これらの誤り貢献ゾーンを特定することができる。
LPMは特定されたゾーンに点密度を適用し、これらの領域の前にある点の不透明度をリセットし、不適切な点を修正する新しい機会を生み出す。
特に、LPMは静的3DGSとダイナミックなSpaceTimeGSの両方を改善して、リアルタイム速度を維持しながら最先端のレンダリング品質を実現している。
論文 参考訳(メタデータ) (2024-06-06T16:55:07Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - Visual-tactile sensing for Real-time liquid Volume Estimation in
Grasping [58.50342759993186]
変形性容器内の液体をリアルタイムに推定するためのビジュオ触覚モデルを提案する。
我々は、RGBカメラからの生の視覚入力と、特定の触覚センサーからの触覚手がかりの2つの感覚モードを融合する。
ロボットシステムは、推定モデルに基づいて、リアルタイムで適切に制御され、調整される。
論文 参考訳(メタデータ) (2022-02-23T13:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。