論文の概要: Beyond Random Masking: A Dual-Stream Approach for Rotation-Invariant Point Cloud Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2509.14975v1
- Date: Thu, 18 Sep 2025 14:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.254179
- Title: Beyond Random Masking: A Dual-Stream Approach for Rotation-Invariant Point Cloud Masked Autoencoders
- Title(参考訳): Beyond Random Masking: 回転不変点クラウドマスク付きオートエンコーダのためのデュアルストリームアプローチ
- Authors: Xuanhua Yin, Dingxin Zhang, Yu Feng, Shunqi Mao, Jianhui Yu, Weidong Cai,
- Abstract要約: 既存の回転不変点クラウドマスキングオートエンコーダは、幾何学的構造とセマンティックコヒーレンスを見下ろすランダムマスキング戦略に依存している。
本稿では3次元空間格子マスキングとプログレッシブ・セマンティック・マスキングを組み合わせた二重ストリームマスキング手法を提案する。
我々の戦略は、アーキテクチャの変更なしに既存の回転不変フレームワークに統合され、異なるアプローチで広範な互換性が保証されます。
- 参考スコア(独自算出の注目度): 12.855143988860187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing rotation-invariant point cloud masked autoencoders (MAE) rely on random masking strategies that overlook geometric structure and semantic coherence. Random masking treats patches independently, failing to capture spatial relationships consistent across orientations and overlooking semantic object parts that maintain identity regardless of rotation. We propose a dual-stream masking approach combining 3D Spatial Grid Masking and Progressive Semantic Masking to address these fundamental limitations. Grid masking creates structured patterns through coordinate sorting to capture geometric relationships that persist across different orientations, while semantic masking uses attention-driven clustering to discover semantically meaningful parts and maintain their coherence during masking. These complementary streams are orchestrated via curriculum learning with dynamic weighting, progressing from geometric understanding to semantic discovery. Designed as plug-and-play components, our strategies integrate into existing rotation-invariant frameworks without architectural changes, ensuring broad compatibility across different approaches. Comprehensive experiments on ModelNet40, ScanObjectNN, and OmniObject3D demonstrate consistent improvements across various rotation scenarios, showing substantial performance gains over the baseline rotation-invariant methods.
- Abstract(参考訳): 既存の回転不変点雲マスクオートエンコーダ(MAE)は、幾何学的構造とセマンティックコヒーレンスを見下ろすランダムマスキング戦略に依存している。
ランダムマスキングはパッチを独立に扱い、向きに整合した空間的関係を捉えず、回転に関係なくアイデンティティを保持する意味オブジェクト部分を見渡す。
本稿では3次元空間格子マスキングとプログレッシブ・セマンティック・マスキングを組み合わせた二重ストリームマスキング手法を提案する。
グリッドマスキングは座標ソートによって構造化されたパターンを生成し、様々な方向をまたがる幾何学的関係を捉え、セマンティックマスキングは意味論的意味のある部分を発見し、マスキング中にコヒーレンスを維持するために注意駆動のクラスタリングを使用する。
これらの相補的ストリームは、幾何学的理解から意味発見まで、動的重み付けによるカリキュラム学習を通じて編成される。
プラグイン・アンド・プレイコンポーネントとして設計された当社の戦略は、アーキテクチャの変更なしに既存の回転不変フレームワークに統合され、異なるアプローチ間の広範な互換性が保証されます。
ModelNet40、ScanObjectNN、OmniObject3Dの総合的な実験は、様々なローテーションシナリオで一貫した改善を示し、ベースラインのローテーション不変法よりもかなりの性能向上を示した。
関連論文リスト
- HFBRI-MAE: Handcrafted Feature Based Rotation-Invariant Masked Autoencoder for 3D Point Cloud Analysis [10.978894026853675]
HFBRI-MAE(Handcrafted Feature-Based Rotation-Invariant Masked Autoencoder)を導入する。
HFBRI-MAEは、回転不変のハンドクラフト機能でMAE設計を洗練し、異なる方向をまたいで安定した特徴学習を実現する新しいフレームワークである。
HFBRI-MAEは、オブジェクト分類、セグメンテーション、少数ショット学習において、既存の手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-04-19T01:33:19Z) - RI-MAE: Rotation-Invariant Masked AutoEncoders for Self-Supervised Point Cloud Representation Learning [24.532566288697684]
マスク付きポイントモデリング手法は,最近,ポイントクラウドデータの自己教師付き学習において大きな成功を収めている。
これらの手法は回転に敏感であり、回転変動に遭遇するときにしばしば鋭い性能低下を示す。
本稿では,2つの課題に対処するために,回転不変マスク付きオートエンコーダ(RI-MAE)を提案する。
論文 参考訳(メタデータ) (2024-08-31T05:17:55Z) - Geometry-aware Reconstruction and Fusion-refined Rendering for Generalizable Neural Radiance Fields [18.474371929572918]
Generalizable NeRFは、目に見えないシーンのための新しいビューを合成することを目的としている。
我々は、一貫したピクセル対の寄与を増幅するために、適応コスト集約(ACA)アプローチを導入する。
既存の2つのデコード戦略が相補的な異なる領域で優れていることを観察する。
論文 参考訳(メタデータ) (2024-04-26T16:46:28Z) - Let-It-Flow: Simultaneous Optimization of 3D Flow and Object Clustering [2.763111962660262]
実大規模原点雲列からの自己監督型3次元シーンフロー推定の問題点について検討する。
重なり合うソフトクラスタと非重なり合う固いクラスタを組み合わせられる新しいクラスタリング手法を提案する。
本手法は,複数の独立移動物体が互いに近接する複雑な動的シーンにおける流れの解消に優れる。
論文 参考訳(メタデータ) (2024-04-12T10:04:03Z) - Rethinking Rotation Invariance with Point Cloud Registration [18.829454172955202]
本稿では, 回転不変形状符号化, 整列化機能統合, 深部特徴登録の3段階を通した回転不変性学習のための効果的なフレームワークを提案する。
3次元形状分類,部分分割,検索タスクの実験結果から,本研究の可能性が確認された。
論文 参考訳(メタデータ) (2022-12-31T08:17:09Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z) - Primal-Dual Mesh Convolutional Neural Networks [62.165239866312334]
本稿では,グラフ・ニューラル・ネットワークの文献からトライアングル・メッシュへ引き起こされた原始双対のフレームワークを提案する。
提案手法は,3次元メッシュのエッジと顔の両方を入力として特徴付け,動的に集約する。
メッシュ単純化の文献から得られたツールを用いて、我々のアプローチに関する理論的知見を提供する。
論文 参考訳(メタデータ) (2020-10-23T14:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。