論文の概要: Canonical Space Representation for 4D Panoptic Segmentation of Articulated Objects
- arxiv url: http://arxiv.org/abs/2511.05356v1
- Date: Fri, 07 Nov 2025 15:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.819181
- Title: Canonical Space Representation for 4D Panoptic Segmentation of Articulated Objects
- Title(参考訳): 人工物体の4次元パノプティクス分割のための標準空間表現
- Authors: Manuel Gomes, Bogdan Raducanu, Miguel Oliveira,
- Abstract要約: アーティキュレートされた物体知覚は、コンピュータビジョンにおいて重要な課題を呈している。
既存の方法の多くは、そのような対象の性質が本質的に動的であるにもかかわらず、時間力学を無視する。
提案するCanonSeg4Dは,新しい4Dパノプティカルセグメンテーションフレームワークである。
- 参考スコア(独自算出の注目度): 5.7565330936756025
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Articulated object perception presents significant challenges in computer vision, particularly because most existing methods ignore temporal dynamics despite the inherently dynamic nature of such objects. The use of 4D temporal data has not been thoroughly explored in articulated object perception and remains unexamined for panoptic segmentation. The lack of a benchmark dataset further hurt this field. To this end, we introduce Artic4D as a new dataset derived from PartNet Mobility and augmented with synthetic sensor data, featuring 4D panoptic annotations and articulation parameters. Building on this dataset, we propose CanonSeg4D, a novel 4D panoptic segmentation framework. This approach explicitly estimates per-frame offsets mapping observed object parts to a learned canonical space, thereby enhancing part-level segmentation. The framework employs this canonical representation to achieve consistent alignment of object parts across sequential frames. Comprehensive experiments on Artic4D demonstrate that the proposed CanonSeg4D outperforms state of the art approaches in panoptic segmentation accuracy in more complex scenarios. These findings highlight the effectiveness of temporal modeling and canonical alignment in dynamic object understanding, and pave the way for future advances in 4D articulated object perception.
- Abstract(参考訳): アーティキュレートされた物体知覚はコンピュータビジョンにおいて重要な課題を呈し、特に既存のほとんどの手法は、そのような物体の性質が本質的に動的であるにもかかわらず、時間的ダイナミクスを無視している。
4次元時間的データの使用は、明瞭な物体知覚において完全には研究されておらず、汎視的セグメンテーションには未検討のままである。
ベンチマークデータセットの欠如により、この領域はさらに傷つけられた。
この目的のために、Artic4DをPartNet Mobilityから派生した新しいデータセットとして導入し、4Dパノビュータアノテーションと調音パラメータを特徴とする合成センサデータを拡張した。
このデータセットに基づいて、新しい4Dパン光学セグメンテーションフレームワークであるCanonSeg4Dを提案する。
このアプローチは、観測対象部分を学習された標準空間にマッピングするフレーム単位のオフセットを明示的に推定し、その結果、部分レベルのセグメンテーションが向上する。
このフレームワークは、シーケンシャルフレーム間のオブジェクト部分の一貫性のあるアライメントを実現するために、この標準表現を使用する。
Artic4Dの総合的な実験により、提案されたCanonSeg4Dは、より複雑なシナリオにおいて、汎視的セグメンテーションの精度において最先端のアプローチより優れていることが示された。
これらの知見は、動的対象理解における時間的モデリングと正準アライメントの有効性を強調し、4次元明瞭物体知覚における将来の進歩の道を開くものである。
関連論文リスト
- C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - 4DRecons: 4D Neural Implicit Deformable Objects Reconstruction from a single RGB-D Camera with Geometrical and Topological Regularizations [35.161541396566705]
4DReconsは出力を4Dの暗黙の表面としてエンコードする。
4DReconsは大きな変形や複雑な部品間相互作用を処理可能であることを示す。
論文 参考訳(メタデータ) (2024-06-14T16:38:00Z) - 4D Panoptic Scene Graph Generation [102.22082008976228]
ダイナミックな4次元世界において知覚される生の視覚データをブリッジし,高レベルの視覚的理解を実現する新しい表現である4D Panoptic Scene Graph (PSG-4D)を紹介する。
具体的には、PSG-4Dは、リッチな4D知覚データをノードに抽象化し、正確な位置とステータス情報を持つエンティティとエッジを表現し、時間的関係をキャプチャする。
そこで我々は,PSG4DFormerを提案する。PSG4DFormerはトランスフォーマーベースのモデルで,空間分割マスクを予測し,時間軸に沿ってマスクをトラックし,対応するシーングラフを生成する。
論文 参考訳(メタデータ) (2024-05-16T17:56:55Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - Neural Part Priors: Learning to Optimize Part-Based Object Completion in
RGB-D Scans [27.377128012679076]
本稿では,部分情報付き3次元形状の大規模合成データセットを活用してニューラル部品の先行学習を提案する。
実世界でスキャンされた3Dシーンをテスト時に適合させるために、学習した部分を最適化できます。
ScanNetデータセットの実験では、NPPは部分分解とオブジェクト補完において、技術の状態を大幅に上回っている。
論文 参考訳(メタデータ) (2022-03-17T15:05:44Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。