Fugu-MT 論文翻訳(概要): DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

論文の概要: DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

arxiv url: http://arxiv.org/abs/2602.19565v1
Date: Mon, 23 Feb 2026 07:30:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.711287
Title: DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces
Title（参考訳）: DICArt:離散状態空間におけるカテゴリーレベルのArticulated Object Pose推定の改善
Authors: Li Zhang, Mingyu Mei, Ailing Wang, Xianhui Meng, Yan Zhong, Xinyuan Song, Liu Liu, Rujing Wang, Zaixing He, Cewu Lu,
Abstract要約: DICArtは、条件付き離散拡散過程としてポーズ推定を定式化する新しいフレームワークである。本稿では,各トークンを復号化するかリセットすべきかを動的に決定するフレキシブルフロー決定器を提案する。合成データセットと実世界のデータセットの両方でDICArtを検証する。
参考スコア（独自算出の注目度）: 42.055572875282344
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Articulated object pose estimation is a core task in embodied AI. Existing methods typically regress poses in a continuous space, but often struggle with 1) navigating a large, complex search space and 2) failing to incorporate intrinsic kinematic constraints. In this work, we introduce DICArt (DIsCrete Diffusion for Articulation Pose Estimation), a novel framework that formulates pose estimation as a conditional discrete diffusion process. Instead of operating in a continuous domain, DICArt progressively denoises a noisy pose representation through a learned reverse diffusion procedure to recover the GT pose. To improve modeling fidelity, we propose a flexible flow decider that dynamically determines whether each token should be denoised or reset, effectively balancing the real and noise distributions during diffusion. Additionally, we incorporate a hierarchical kinematic coupling strategy, estimating the pose of each rigid part hierarchically to respect the object's kinematic structure. We validate DICArt on both synthetic and real-world datasets. Experimental results demonstrate its superior performance and robustness. By integrating discrete generative modeling with structural priors, DICArt offers a new paradigm for reliable category-level 6D pose estimation in complex environments.
Abstract（参考訳）: アーティキュレートされたオブジェクトのポーズ推定は、インボディードAIの中核的なタスクである。既存の手法は、通常連続した空間でポーズを回帰するが、しばしば苦労する 1)巨大で複雑な検索空間をナビゲートし、 2)本質的なキネマティック制約を組み込むことができない。本研究では,DICArt (DIsCrete Diffusion for Articulation Pose Estimation, DICArt) について述べる。連続したドメインで操作する代わりに、DICArtはGTのポーズを回復するために学習された逆拡散手順を通じて、ノイズの多いポーズ表現を段階的に denoise する。モデルの忠実度を改善するために,各トークンを復号化すべきかリセットすべきかを動的に決定するフレキシブルフロー決定器を提案する。さらに,各剛部の姿勢を階層的に推定し,対象の運動構造を尊重する階層的運動結合戦略を取り入れた。合成データセットと実世界のデータセットの両方でDICArtを検証する。実験結果は、その優れた性能と堅牢性を示している。 DICArtは、離散生成モデルと構造的先行モデルを統合することにより、複雑な環境下での信頼性の高いカテゴリレベルの6Dポーズ推定のための新しいパラダイムを提供する。

関連論文リスト

MonoPartNeRF:Human Reconstruction from Monocular Video via Part-Based Neural Radiance Fields [12.791949210170124]
単分子動的人間のレンダリングのための新しいフレームワークMonoPartNeRFを提案する。部分ベースのレンダリングパラダイムは、人間のセグメンテーションによってガイドされ、構造的な複雑さに基づいた柔軟なパラメータ割り当てを可能にする。本研究では,グローバルなポーズベクトルを身体領域に基づく局所的な関節埋め込みに分解する部分的ポーズ埋め込み機構を提案する。
論文参考訳（メタデータ） (2025-08-12T09:55:21Z)
Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T14:42:27Z)
Diff9D: Diffusion-Based Domain-Generalized Category-Level 9-DoF Object Pose Estimation [68.81887041766373]
ドメイン一般化9-DoFオブジェクトポーズ推定のための拡散に基づくパラダイムを提案する。本研究では,9-DoFオブジェクトのポーズ推定を生成的観点から再定義する効果的な拡散モデルを提案する。提案手法は,最先端の領域一般化性能を実現する。
論文参考訳（メタデータ） (2025-02-04T17:46:34Z)
Towards Robust and Realistic Human Pose Estimation via WiFi Signals [85.60557095666934]
WiFiベースの人間のポーズ推定は、離散的で微妙なWiFi信号を人間の骨格にブリッジする難しいタスクである。本論文は,本問題を再検討し,(1)ドメイン間ギャップ,(2)ソース・ターゲット領域のポーズ分布の顕著な変化,(2)骨格のポーズが歪んだトポロジーを示す構造的フィデリティギャップ,の2つの重要な問題を明らかにする。本稿では,タスクをDT-Poseと呼ばれる新しい2段階のフレームワークに書き換えることで,これらのギャップを埋める:ドメイン一貫性表現学習とトポロジ制約ポスデコーディング。
論文参考訳（メタデータ） (2025-01-16T09:38:22Z)
Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文参考訳（メタデータ） (2024-11-23T19:10:32Z)
$\text{Di}^2\text{Pose}$: Discrete Diffusion Model for Occluded 3D Human Pose Estimation [17.281031933210762]
本稿では,3次元ポーズ推定のための新しいフレームワークであるDigital Diffusion Pose(textDi2textPose$)を紹介する。 $textDi2textPose$は2段階のプロセスを採用している。この方法論的な革新は、物理的に実行可能な構成への探索空間を限定的に制限する。
論文参考訳（メタデータ） (2024-05-27T10:01:36Z)
Decomposing the Neurons: Activation Sparsity via Mixture of Experts for Continual Test Time Adaptation [37.79819260918366]
継続的なテスト時間適応(CTTA)は、トレーニング済みのモデルを進化し続けるターゲットドメインに適応させることを目的としている。我々はCTTAタスクのアダプタとしてMixture-of-Activation-Sparsity-Experts (MoASE)の統合について検討する。
論文参考訳（メタデータ） (2024-05-26T08:51:39Z)
ConsistencyDet: A Few-step Denoising Framework for Object Detection Using the Consistency Model [22.34776007498307]
本稿では,物体検出を認知拡散過程として記述するための新しいフレームワークを提案する。 textbfConsistencyDetと呼ばれるこのフレームワークは、Consistency Modelとして知られる革新的な概念を活用している。
論文参考訳（メタデータ） (2024-04-11T14:08:45Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文参考訳（メタデータ） (2022-03-24T06:24:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。