論文の概要: RoboHitch: Learning Visual Affordance from Disordered Keypoints for Hitch Knots Tying
- arxiv url: http://arxiv.org/abs/2605.24394v1
- Date: Sat, 23 May 2026 04:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.027065
- Title: RoboHitch: Learning Visual Affordance from Disordered Keypoints for Hitch Knots Tying
- Title(参考訳): RoboHitch: ヒッチノットタイリングのための障害のあるキーポイントから視覚的な習慣を学ぶ
- Authors: Jiahui Zuo, Boyang Zhang, Fumin Zhang,
- Abstract要約: 既存のロボットノットタイリング手法は、順序付けられたキーポイントと明示的なエッジ接続を備えた正確なトポロジカルな状態追跡に依存している。
本稿では,不規則な3DキーポイントとRGB画像のみを用いて,人間のデモからヒッチ結び付けを学習する新しいフレームワークRoboHitchを紹介する。
- 参考スコア(独自算出の注目度): 4.437059562306781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation of deformable linear objects (DLOs) presents significant challenges due to complex dynamics and frequent self-occlusions. Existing robotic knot tying methods typically rely on precise topological state tracking with ordered keypoints and explicit edge connectivity. This reliance makes them prone to failures due to tracking drift and topology mismatch caused by repeated bending and crossings during knot formation.To address these limitations, we introduce RoboHitch, a novel framework that learns to perform hitch knot tying from human demonstrations using only disordered 3D keypoints and RGB images. This eliminates the need for explicit topological order, allowing for more flexible manipulation. Our method employs a dynamic Graph Autoencoder to extract geometric features from untracked keypoints, complemented by a Convolutional Autoencoder that captures essential visual context. A bidirectional cross-attention mechanism then fuses these modalities to jointly predict pick and place affordances, facilitating implicit reasoning about the rope's state and enabling knot tying under occlusion.Real-world experiments demonstrate the effectiveness and generalizability of our approach, successfully completing hitch knots in scenarios with self-occlusions.
- Abstract(参考訳): 変形可能な線形物体(DLO)のロボット操作は、複雑な力学と頻繁な自己閉塞に起因する重要な課題を提起する。
既存のロボットノットタイリング手法は、通常、順序付けられたキーポイントと明示的なエッジ接続を備えた正確なトポロジカルな状態追跡に依存している。
これらの制約に対処するため,不規則な3DキーポイントとRGB画像のみを用いて,ヒトのデモからヒッチ結び付けを学習する新しいフレームワークであるRoboHitchを導入する。
これにより、明示的なトポロジ的順序が不要になり、より柔軟な操作が可能になる。
提案手法は動的グラフオートエンコーダを用いて,重要な視覚的コンテキストをキャプチャする畳み込みオートエンコーダによって補完される,追跡されていないキーポイントから幾何学的特徴を抽出する。
両方向のクロスアテンション機構は,これらのモダリティを融合させて,ロープの状態について暗黙の推論をしやすくし,閉塞下での結び目を可能にし,本手法の有効性と一般化性を実証し,自己閉塞を伴うシナリオにおけるヒッチノットの完成を成功させる。
関連論文リスト
- Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors [51.096845970243855]
高忠実度3Dデータの不足により,全体Humanoid-Object Interaction (HOI) がボトルネックとなる。
本研究では,ゼロショットHOIフレームワークであるImagine2Realを提案する。
論文 参考訳(メタデータ) (2026-05-21T10:15:39Z) - Hierarchical and Holistic Open-Vocabulary Functional 3D Scene Graphs for Indoor Spaces [116.57196064763924]
我々は、高密度テーブルトップオブジェクトと明示的なマルチレベル機能関係を導入することで、ベンチマークカバレッジを拡大する。
この研究は、小規模、高密度、および類似のインスタンスにかかわる重要な課題を提起する。
2次元視覚的グラウンドリングと3次元グラフ最適化に基づくオープン語彙パイプラインを提案する。
論文 参考訳(メタデータ) (2026-05-15T09:14:50Z) - Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery [12.116457701406047]
実世界のインタラクション分析において,多人数の3D再構成が重要である。
現在のアプローチは、本質的に幾何学的なガイダンスが欠如している単一モダリティ入力に依存している。
コントラスト型マルチモーダルハイパーグラフ推論により, 群集再建のための意味的, 幾何学的, ポーズ的手がかりの相乗化を行う。
論文 参考訳(メタデータ) (2026-04-01T09:39:01Z) - Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints [87.13154261503168]
モーションコントロール可能なビデオ生成は、仮想現実と組み込みAIにおけるエゴセントリックなアプリケーションに不可欠である。
既存の手法は、しばしば3D一貫性のきめ細かい手話を実現するのに苦労する。
単一の参照フレームからエゴセントリックなビデオを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-12T10:02:23Z) - Multi-Keypoint Affordance Representation for Functional Dexterous Grasping [26.961157077703756]
本稿では,機能的デキスタラスグルーピングのためのマルチキーポイントアプライアンス表現を提案する。
本手法は,機能的接触点の局在化により,タスク駆動型グリップ構成を符号化する。
提案手法は,手頃な局所化精度,一貫性の把握,未知のツールやタスクへの一般化を著しく改善する。
論文 参考訳(メタデータ) (2025-02-27T11:54:53Z) - Occlusion Resilient 3D Human Pose Estimation [52.49366182230432]
排除は、シングルカメラビデオシーケンスからの3Dボディポーズ推定における重要な課題の1つとして残されている。
単一カメラシーケンスからポーズを推測する最先端技術と比較して,このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-16T19:29:43Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - A Distance-Geometric Method for Recovering Robot Joint Angles From an
RGB Image [7.971699294672282]
本稿では,ロボットマニピュレータの関節角度を現在の構成の1つのRGB画像のみを用いて検索する手法を提案する。
提案手法は,構成空間の距離幾何学的表現に基づいて,ロボットの運動モデルに関する知識を活用する。
論文 参考訳(メタデータ) (2023-01-05T12:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。