論文の概要: Diffusion Masked Pretraining for Dynamic Point Cloud
- arxiv url: http://arxiv.org/abs/2605.03639v2
- Date: Mon, 11 May 2026 08:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 16:21:29.355975
- Title: Diffusion Masked Pretraining for Dynamic Point Cloud
- Title(参考訳): 動的点雲に対する拡散マスク前処理
- Authors: Zhuoyue Zhang, Jihua Zhu, Chaowei Fang, Jian Liu, Ajmal Saeed Mian,
- Abstract要約: ダイナミックポイントクラウドのための統合型自己教師型フレームワークであるDynamic Masked Pretraining (DiMP)を提案する。
DiMPは位置推定と運動学習の両方に拡散モデリングを導入している。
バックボーンのみのダウンストリーム精度を一貫して向上させる。
- 参考スコア(独自算出の注目度): 32.982543406956985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic point cloud pretraining is still dominated by masked reconstruction objectives. However, these objectives inherit two key limitations. Existing methods inject ground-truth tube centers as decoder positional embeddings, causing spatio-temporal positional leakage. Moreover, they supervise inter-frame motion with deterministic proxy targets that systematically discard distributional structure by collapsing multimodal trajectory uncertainty into conditional means. To address these limitations, we propose Diffusion Masked Pretraining (DiMP), a unified self-supervised framework for dynamic point clouds. DiMP introduces diffusion modeling into both positional inference and motion learning. It first applies forward diffusion noise only to masked tube centers, then predicts clean centers from visible spatio-temporal context. This removes positional leakage while preserving visible coordinates as clean temporal anchors. DiMP also reformulates point-wise inter-frame displacement supervision as a DDPM noise-prediction objective conditioned on decoded representations. This design drives the encoder to target the full conditional distribution of plausible motions under a variational surrogate, rather than collapsing to a single deterministic estimate. Extensive experiments demonstrate that DiMP consistently improves downstream accuracy over the backbone alone, with absolute gains of 11.21% on offline action segmentation and 13.65% under causally constrained online inference.Codes are available at https://github.com/InitalZ/DiMP.git.
- Abstract(参考訳): 動的点雲事前訓練は依然としてマスクされた再建目標によって支配されている。
しかし、これらの目的は2つの重要な制限を継承する。
既存の方法では、地中管中心をデコーダの位置埋め込みとして注入し、時空間位置の漏れを引き起こす。
さらに,マルチモーダル軌道の不確かさを条件付き手段に分解することで,分布構造を体系的に破棄する決定論的プロキシターゲットを用いたフレーム間運動を監督する。
これらの制約に対処するため,ダイナミックポイントクラウドのための自己教師型フレームワークであるDiffusion Masked Pretraining (DiMP)を提案する。
DiMPは位置推定と運動学習の両方に拡散モデリングを導入している。
最初に前方拡散ノイズをマスクされた管中心にのみ適用し、その後、可視時空間からクリーンな中心を予測する。
これにより、位置の漏れを除去し、見える座標をクリーンな時間アンカーとして保存する。
DiMPはまた、デコードされた表現に条件付けられたDDPMノイズ予測対象として、フレーム間変位監視のポイントワイズを再構成する。
この設計により、エンコーダは1つの決定論的推定に崩壊するのではなく、変分代理の下で可塑性運動の完全な条件分布を目標とする。
DiMPは、オフラインアクションセグメンテーションで11.21%、因果的に制約されたオンライン推論で13.65%という絶対的なゲインで、バックボーンのみのダウンストリーム精度を一貫して改善している。
関連論文リスト
- Exploring the Limits of End-to-End Feature-Affinity Propagation for Single-Point Supervised Infrared Small Target Detection [6.7126559398433665]
単一点制御赤外線小ターゲット検出(IRSTD)は、高密度アノテーションのコストを大幅に削減する。
現在のSOTA(State-of-the-art)手法は、マスクの監督を明示的でオフラインな擬似ラベル構成によって回収することにより、高精度を実現する。
最小限の代替策として、オンラインのポイント・ツー・マスク・イン・バッチ、ポイント・アンカレド・フィーチャー・アフィニティ・プロパゲーションを通じて、ポイント・ツー・マスクをオンラインに生成する手法について検討する。
論文 参考訳(メタデータ) (2026-05-01T15:08:46Z) - RAFT-MSF++: Temporal Geometry-Motion Feature Fusion for Self-Supervised Monocular Scene Flow [51.43025173196566]
単眼のシーンフロー推定は画像列から高密度な3次元動きを復元することを目的としている。
RAFT-MSF++は,時間的特徴を融合して深度とシーンフローを推定する自己教師型マルチフレームフレームワークである。
実験の結果、RAFT-MSF++はKITTI Scene Flowベンチマークで24.14%のSF-allを達成した。
論文 参考訳(メタデータ) (2026-04-21T11:32:49Z) - Neural Continuous-Time Markov Chain: Discrete Diffusion via Decoupled Jump Timing and Direction [18.20305761007799]
我々は,2つの専用ネットワークヘッドを用いて,エフェキシットレート(ジャンプ時)とエフェジュンプ分布(ジャンプ時)で逆処理をパラメータ化するtextbfNeural CTMCを提案する。
我々は、エビデンスローバウンド(ELBO)が、真と学習された逆過程の経路空間KL分散と$$非依存定数で異なることを示す。
また, トラクタブル条件付きサロゲートは標準正則性仮定の下で, 対応する限界逆プロセス対象の勾配と最小化を保っていることを示す。
論文 参考訳(メタデータ) (2026-04-17T04:40:19Z) - BadRSSD: Backdoor Attacks on Regularized Self-Supervised Diffusion Models [10.286339414754499]
Bad RSSDは自己教師付き拡散モデルの表現層をターゲットにした最初のバックドア攻撃である。
標的画像に対するPCA空間のトリガーで有毒なサンプルのセマンティック表現をハイジャックする。
悪い RSSD は FID と MSE の両方で既存の攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2026-03-01T09:56:26Z) - Belief-Conditioned One-Step Diffusion: Real-Time Trajectory Planning with Just-Enough Sensing [1.6984211127623137]
我々は、10ミリ秒の前方通過で短水平軌道を返す最初のプランナーであるBelief-Conditioned One-Step Diffusion (B-COD)を提示する。
この1つのプロキシは、ソフト・アクター・クリティカルがオンラインでセンサーを選択するのに十分であり、ポーズ・コ・グロースを束縛しながらエネルギーを最適化することを示している。
論文 参考訳(メタデータ) (2025-08-16T21:34:16Z) - Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。
我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文 参考訳(メタデータ) (2024-10-03T21:57:21Z) - StraightPCF: Straight Point Cloud Filtering [50.66412286723848]
ポイントクラウドフィルタリングは、基礎となるクリーンな表面を回復しながらノイズを取り除くことを目的とした、基本的な3Dビジョンタスクである。
我々は、ポイントクラウドフィルタリングのための新しいディープラーニングベースの方法であるStraightPCFを紹介する。
ノイズの多い点を直線に沿って移動させることで、離散化誤差を低減し、クリーン表面への高速な収束を保証する。
論文 参考訳(メタデータ) (2024-05-14T05:41:59Z) - Ada3Diff: Defending against 3D Adversarial Point Clouds via Adaptive
Diffusion [70.60038549155485]
ディープ3Dポイントクラウドモデルは敵攻撃に敏感であり、自律運転のような安全クリティカルなアプリケーションに脅威をもたらす。
本稿では,適応強度推定器と拡散モデルを用いて,プリスタンデータ分布を再構築できる新しい歪み認識型防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:32:43Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。