論文の概要: ComPose: When to Trust Hands for Object Pose Tracking
- arxiv url: http://arxiv.org/abs/2605.23523v1
- Date: Fri, 22 May 2026 11:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.331394
- Title: ComPose: When to Trust Hands for Object Pose Tracking
- Title(参考訳): ComPose: オブジェクトのトラッキングを信頼する時
- Authors: Jisu Shin, Junoh Lee, JunGyu Lee, Inhwan Bae, Dohyeon Lee, Hokyun Im, Youngwoon Lee, Hae-Gon Jeon,
- Abstract要約: ComPoseは、6DoFオブジェクトトラッキングフレームワークで、RGBビデオから手動でオブジェクトのポーズを推定するように設計されている。
本手法は,物体追跡のためのテキスト補完キューとして手の動きを調和させる。
結果は、ロボットがオンラインビデオから人間の行動を再構築できるようにすることで、下流ロボット操作に効果的に移行することができる。
- 参考スコア(独自算出の注目度): 44.085148707189035
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reconstructing the motion of objects from videos is a key component for embodied AI and robot manipulation. While diverse approaches to object pose tracking have been studied, they rely heavily on strong external priors, such as depth data or 3D templates, and remain highly vulnerable to severe occlusions by hand grasps despite the use of explicit masks. In this work, we present ComPose, a 6DoF object tracking framework designed for hand-aware object pose estimation from RGB video. Rather than treating the hand purely as an occluder, our method harmonizes hand motions as a \textit{complementary cue} for object tracking. In detail, we recover a variety of object motions over time by combining object and hand cues from foundation models within a unified tracking pipeline. Here, ComPose adaptively selects informative hand joints, combines object- and hand-derived cues for motion estimation, and refines the resulting object motion using visible geometric evidence and a learned correction. We further enforce the temporal consistency over both rotation and translation, yielding stable 3D object trajectories over time without any external smoothing. Extensive experiments show that our method is accurate, efficient, and robust under severe hand occlusion and geometric ambiguity. In addition, the resulting trajectories can also effectively transfer to downstream robot manipulation by enabling robots to reconstruct human actions from online videos.
- Abstract(参考訳): ビデオからオブジェクトの動きを再構成することは、AIとロボット操作を具体化する上で重要な要素である。
物体のポーズ追跡に対する様々なアプローチが研究されているが、深度データや3Dテンプレートのような強い外部の先行概念に強く依存しており、明示的なマスクの使用にもかかわらず、手のつかみによる重篤な閉塞に対して非常に脆弱である。
本研究では,RGBビデオから手書きオブジェクトのポーズ推定を行うための6DoFオブジェクト追跡フレームワークComPoseを提案する。
本手法では,手の動きを物体追跡のための「textit{complementary cue}」として調和させる。
本稿では,統合されたトラッキングパイプライン内の基礎モデルからオブジェクトとハンドキューを組み合わせることで,時間とともにさまざまなオブジェクトの動きを復元する。
そこでComPoseは適応的に情報的手関節を選択し、物体と手の動きを合成し、視覚的な幾何学的証拠と学習された補正を用いて物体の動きを洗練する。
さらに、回転と変換の両面に時間的一貫性を強制し、外部の平滑化を伴わずに時間とともに安定な3次元物体軌道を導出する。
広範囲な実験により,本手法は手の重篤な閉塞と幾何学的曖昧さの下で正確で,効率的で,頑健であることが示された。
さらに、結果として得られる軌道は、ロボットがオンラインビデオから人間の行動を再構築できるようにすることで、下流ロボット操作に効果的に移行することができる。
関連論文リスト
- ArtReg: Visuo-Tactile based Pose Tracking and Manipulation of Unseen Articulated Objects [2.9793019246605676]
視認できない物体の視触覚に基づく追跡のための新しい手法を提案する。
提案手法は,無意味なカルマンフィルタの定式化において,ビジュオ触点雲を統合する。
我々は,実際のロボット実験を通じて,様々な種類の未知物体に対するアプローチを広く評価してきた。
論文 参考訳(メタデータ) (2025-11-09T13:30:51Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - 3D Foundation Models Enable Simultaneous Geometry and Pose Estimation of Grasped Objects [13.58353565350936]
本研究では,ロボットが把握した物体の形状と姿勢を共同で推定する手法を提案する。
提案手法は,推定幾何をロボットの座標フレームに変換する。
我々は,実世界の多様な物体の集合を保持するロボットマニピュレータに対する我々のアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2024-07-14T21:02:55Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文 参考訳(メタデータ) (2022-04-14T17:59:02Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。