論文の概要: DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces
- arxiv url: http://arxiv.org/abs/2602.19565v1
- Date: Mon, 23 Feb 2026 07:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.711287
- Title: DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces
- Title(参考訳): DICArt:離散状態空間におけるカテゴリーレベルのArticulated Object Pose推定の改善
- Authors: Li Zhang, Mingyu Mei, Ailing Wang, Xianhui Meng, Yan Zhong, Xinyuan Song, Liu Liu, Rujing Wang, Zaixing He, Cewu Lu,
- Abstract要約: DICArtは、条件付き離散拡散過程としてポーズ推定を定式化する新しいフレームワークである。
本稿では,各トークンを復号化するかリセットすべきかを動的に決定するフレキシブルフロー決定器を提案する。
合成データセットと実世界のデータセットの両方でDICArtを検証する。
- 参考スコア(独自算出の注目度): 42.055572875282344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Articulated object pose estimation is a core task in embodied AI. Existing methods typically regress poses in a continuous space, but often struggle with 1) navigating a large, complex search space and 2) failing to incorporate intrinsic kinematic constraints. In this work, we introduce DICArt (DIsCrete Diffusion for Articulation Pose Estimation), a novel framework that formulates pose estimation as a conditional discrete diffusion process. Instead of operating in a continuous domain, DICArt progressively denoises a noisy pose representation through a learned reverse diffusion procedure to recover the GT pose. To improve modeling fidelity, we propose a flexible flow decider that dynamically determines whether each token should be denoised or reset, effectively balancing the real and noise distributions during diffusion. Additionally, we incorporate a hierarchical kinematic coupling strategy, estimating the pose of each rigid part hierarchically to respect the object's kinematic structure. We validate DICArt on both synthetic and real-world datasets. Experimental results demonstrate its superior performance and robustness. By integrating discrete generative modeling with structural priors, DICArt offers a new paradigm for reliable category-level 6D pose estimation in complex environments.
- Abstract(参考訳): アーティキュレートされたオブジェクトのポーズ推定は、インボディードAIの中核的なタスクである。
既存の手法は、通常連続した空間でポーズを回帰するが、しばしば苦労する
1)巨大で複雑な検索空間をナビゲートし、
2)本質的なキネマティック制約を組み込むことができない。
本研究では,DICArt (DIsCrete Diffusion for Articulation Pose Estimation, DICArt) について述べる。
連続したドメインで操作する代わりに、DICArtはGTのポーズを回復するために学習された逆拡散手順を通じて、ノイズの多いポーズ表現を段階的に denoise する。
モデルの忠実度を改善するために,各トークンを復号化すべきかリセットすべきかを動的に決定するフレキシブルフロー決定器を提案する。
さらに,各剛部の姿勢を階層的に推定し,対象の運動構造を尊重する階層的運動結合戦略を取り入れた。
合成データセットと実世界のデータセットの両方でDICArtを検証する。
実験結果は、その優れた性能と堅牢性を示している。
DICArtは、離散生成モデルと構造的先行モデルを統合することにより、複雑な環境下での信頼性の高いカテゴリレベルの6Dポーズ推定のための新しいパラダイムを提供する。
関連論文リスト
- Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - $\text{Di}^2\text{Pose}$: Discrete Diffusion Model for Occluded 3D Human Pose Estimation [17.281031933210762]
本稿では,3次元ポーズ推定のための新しいフレームワークであるDigital Diffusion Pose(textDi2textPose$)を紹介する。
$textDi2textPose$は2段階のプロセスを採用している。
この方法論的な革新は、物理的に実行可能な構成への探索空間を限定的に制限する。
論文 参考訳(メタデータ) (2024-05-27T10:01:36Z) - Decomposing the Neurons: Activation Sparsity via Mixture of Experts for Continual Test Time Adaptation [37.79819260918366]
継続的なテスト時間適応(CTTA)は、トレーニング済みのモデルを進化し続けるターゲットドメインに適応させることを目的としている。
我々はCTTAタスクのアダプタとしてMixture-of-Activation-Sparsity-Experts (MoASE)の統合について検討する。
論文 参考訳(メタデータ) (2024-05-26T08:51:39Z) - ConsistencyDet: A Few-step Denoising Framework for Object Detection Using the Consistency Model [22.34776007498307]
本稿では,物体検出を認知拡散過程として記述するための新しいフレームワークを提案する。
textbfConsistencyDetと呼ばれるこのフレームワークは、Consistency Modelとして知られる革新的な概念を活用している。
論文 参考訳(メタデータ) (2024-04-11T14:08:45Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。