論文の概要: TSM-Pose: Topology-Aware Learning with Semantic Mamba for Category-Level Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2604.16954v1
- Date: Sat, 18 Apr 2026 10:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.258234
- Title: TSM-Pose: Topology-Aware Learning with Semantic Mamba for Category-Level Object Pose Estimation
- Title(参考訳): TSM-Pose:カテゴリーレベルオブジェクトポス推定のためのセマンティックマンバを用いたトポロジー認識学習
- Authors: Jinshuo Liu, Bingtao Ma, Junlin Su, Guanyuan Pan, Beining Wu, Cheng Yang, Jiaxuan Lu, Chenggang Yan, Shuai Wang,
- Abstract要約: カテゴリーレベルのオブジェクトポーズ推定は、具体的インテリジェンスの基本である。
TextbfSemantic textbfMamba for Category-Level textbfPose Estimation framework (TSM-Pose)
textbfTopology-Aware Learning with textbfSemantic textbfMamba for Category-Level textbfPose Estimation framework (TSM-Pose)
- 参考スコア(独自算出の注目度): 23.87324876758338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Category-level object pose estimation is fundamental for embodied intelligence, yet achieving robust generalization to unseen instances remains challenging. However, existing methods mainly rely on simple feature extraction and aggregation, which struggle to capture category-shared topological structures and conduct semantic keypoint modeling, limiting their generalization. To address these, we propose a \textbf{T}opology-Aware Learning with \textbf{S}emantic \textbf{M}amba for Category-Level \textbf{P}ose Estimation framework (TSM-Pose). Specifically, we introduce a Topology Extractor to capture the global topological representation of the point cloud, which is integrated into local geometry features and enables robust category-level structural representation. Simultaneously, we propose a Mamba-based Global Semantic Aggregator that injects semantics priors into keypoints to enhance their expressiveness and leverages multiple TwinMamba blocks to model long-range dependencies for more effective global feature aggregation. Extensive experiments on three benchmark datasets (REAL275, CAMERA25, and HouseCat6D) demonstrate that TSM-Pose outperforms existing state-of-the-art methods.
- Abstract(参考訳): カテゴリーレベルのオブジェクトポーズ推定は、具体的インテリジェンスには基本的だが、目に見えないインスタンスへの堅牢な一般化を実現することは依然として困難である。
しかし、既存の手法は主に、カテゴリー共有トポロジ構造を捉え、セマンティック・キーポイント・モデリングを行うのに苦労する単純な特徴抽出と集約に依存し、一般化を制限している。
これらの問題に対処するために,Catagoory-Level \textbf{P}ose Estimation framework (TSM-Pose) に対して \textbf{S}emantic \textbf{M}amba を用いた知識学習を提案する。
具体的には、局所幾何学的特徴に統合され、ロバストなカテゴリレベルの構造的表現を可能にする、点雲のグローバルな位相的表現を捉えるトポロジ・エクストラクタを導入する。
同時に,マンバをベースとしたGlobal Semantic Aggregatorを提案し,セマンティクスをキーポイントに注入して表現性を高めるとともに,複数のTwinMambaブロックを活用して,より効率的なグローバル機能アグリゲーションのための長距離依存性をモデル化する。
3つのベンチマークデータセット(REAL275、CAMERA25、HouseCat6D)の大規模な実験は、TSM-Poseが既存の最先端手法よりも優れていることを示した。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - SCOPE: Semantic Conditioning for Sim2Real Category-Level Object Pose Estimation in Robotics [8.467086312715892]
SCOPEは拡散に基づくカテゴリーレベルのオブジェクトポーズ推定モデルである。
DINOv2の機能を連続的なセマンティックプリエントとして活用することで、個別のカテゴリラベルの必要性を解消する。
5$5cmのメートル法で31.9%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2025-09-29T10:27:59Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - Instance-Adaptive Keypoint Learning with Local-to-Global Geometric Aggregation for Category-Level Object Pose Estimation [19.117822086210513]
カテゴリレベルのオブジェクトのポーズ推定は、事前に定義されたカテゴリから未確認のインスタンスの6Dのポーズとサイズを予測することを目的としている。
Instance-Adaptive Keypoint Learningを可能にする新しいカテゴリレベルのオブジェクトポーズ推定フレームワークであるINKL-Poseを提案する。
CAMERA25、REAL275、HouseCat6Dの実験では、INKL-Poseは16.7Mパラメータで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-21T14:37:37Z) - GCE-Pose: Global Context Enhancement for Category-level Object Pose Estimation [52.910282443646864]
モデルフリーなカテゴリレベルのポーズ推定における重要な課題は、特定のカテゴリ内の様々なインスタンスにまたがって一般化されるコンテキストオブジェクトの特徴の抽出である。
GCE-Poseは、カテゴリレベルのグローバルコンテキストを予め統合することにより、新規インスタンスのポーズ推定を強化する手法である。
論文 参考訳(メタデータ) (2025-02-06T18:35:13Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。