論文の概要: GATS: Gaussian Aware Temporal Scaling Transformer for Invariant 4D Spatio-Temporal Point Cloud Representation
- arxiv url: http://arxiv.org/abs/2603.16154v1
- Date: Tue, 17 Mar 2026 06:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.124279
- Title: GATS: Gaussian Aware Temporal Scaling Transformer for Invariant 4D Spatio-Temporal Point Cloud Representation
- Title(参考訳): GATS:不変4次元時空間クラウド表現のためのガウス型テンポラルスケーリング変換器
- Authors: Jiayi Tian, Jiaze Wang,
- Abstract要約: 本稿では,分散的不整合と時間的整合性の両方を明確に解消する,新しい二重不変フレームワークである textbfGaussian Aware Temporal Scaling (GATS) を提案する。
MSR-Action3D(textbf+6.62%の精度)、NTU RGBD(textbf+1.4%の精度)、Synthia4D(textbf+1.8% mIoU)のベンチマーク実験は、大きな性能向上を示した。
- 参考スコア(独自算出の注目度): 4.686110187936828
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding 4D point cloud videos is essential for enabling intelligent agents to perceive dynamic environments. However, temporal scale bias across varying frame rates and distributional uncertainty in irregular point clouds make it highly challenging to design a unified and robust 4D backbone. Existing CNN or Transformer based methods are constrained either by limited receptive fields or by quadratic computational complexity, while neglecting these implicit distortions. To address this problem, we propose a novel dual invariant framework, termed \textbf{Gaussian Aware Temporal Scaling (GATS)}, which explicitly resolves both distributional inconsistencies and temporal. The proposed \emph{Uncertainty Guided Gaussian Convolution (UGGC)} incorporates local Gaussian statistics and uncertainty aware gating into point convolution, thereby achieving robust neighborhood aggregation under density variation, noise, and occlusion. In parallel, the \emph{Temporal Scaling Attention (TSA)} introduces a learnable scaling factor to normalize temporal distances, ensuring frame partition invariance and consistent velocity estimation across different frame rates. These two modules are complementary: temporal scaling normalizes time intervals prior to Gaussian estimation, while Gaussian modeling enhances robustness to irregular distributions. Our experiments on mainstream benchmarks MSR-Action3D (\textbf{+6.62\%} accuracy), NTU RGBD (\textbf{+1.4\%} accuracy), and Synthia4D (\textbf{+1.8\%} mIoU) demonstrate significant performance gains, offering a more efficient and principled paradigm for invariant 4D point cloud video understanding with superior accuracy, robustness, and scalability compared to Transformer based counterparts.
- Abstract(参考訳): 4Dポイントのクラウドビデオを理解することは、インテリジェントなエージェントが動的環境を知覚するために不可欠である。
しかし、不規則点雲におけるフレームレートの変動と分布の不確実性による時間スケールバイアスは、統一的で堅牢な4Dバックボーンの設計を非常に困難にしている。
既存のCNNやTransformerベースの手法は、制限された受容場または2次計算の複雑さによって制約されるが、これらの暗黙の歪みは無視される。
この問題に対処するために、分布の不整合と時間の両方を明示的に解決する新しい双対不変フレームワークである、‘textbf{Gaussian Aware Temporal Scaling(GATS)’を提案する。
提案された 'emph{Uncertainty Guided Gaussian Convolution (UGGC) は、局所的なガウス統計と不確実性を認識して点畳み込みを行い、密度変動、雑音、閉塞の下で頑健な近傍の凝集を達成する。
並行して、 \emph{Temporal Scaling Attention (TSA) は、時間的距離を正規化し、フレーム分割のばらつきと異なるフレームレートにおける一貫した速度推定を保証するための学習可能なスケーリング係数を導入している。
これら2つの加群は相補的であり、時相スケーリングはガウス推定に先立って時間間隔を正規化し、ガウスモデリングは不規則分布に対するロバスト性を高める。
MSR-Action3D(\textbf{+6.62\%} 精度)、NTU RGBD(\textbf{+1.4\%} 精度)、Synthia4D(\textbf{+1.8\%} mIoU)による主要なベンチマーク実験は、Transformerベースの手法と比較して、より効率的で原則化された4Dポイント・クラウド・ビデオ理解のためのパラダイムを提供する。
関連論文リスト
- Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting [79.37674445572462]
時系列予測(TSF)は、周期内変動と周期間トレンドの複雑な絡み合いのため、依然として困難な問題である。
形状変化テンソルを静止画像として扱うと、トポロジカルミスマッチが発生する。
均一な固定サイズの表現に依存することは、モデリング能力を非効率に割り当てる。
TimeGSは、予測パラダイムをレグレッションから2D生成レンダリングに根本的にシフトする、新しいフレームワークである。
論文 参考訳(メタデータ) (2026-02-10T14:13:36Z) - TIBR4D: Tracing-Guided Iterative Boundary Refinement for Efficient 4D Gaussian Segmentation [6.650237349474389]
映像分割マスクを4次元空間に引き上げる学習自由な4次元ガウス分割フレームワークを提案する。
第1段階は、時間セグメントレベルでの反復ガウスインスタンストレース(IGIT)である。
第2段階は、物体の境界付近で非常に不確実なガウスを抑えることにより、フレームワイドのガウスレンダリングレンジ制御(RCC)である。
HyperNeRFとNeu3Dの実験により,より明確な境界を持つ正確な物体ガウス点雲が得られた。
論文 参考訳(メタデータ) (2026-02-09T11:41:06Z) - TGSFormer: Scalable Temporal Gaussian Splatting for Embodied Semantic Scene Completion [38.31128137855632]
Embodied 3D Semantic Scene Completionは、連続した自我中心の観測から密集した幾何学と意味を推測する。
最近のDeep-Guidedアプローチはこの問題を軽減するが、スケールが増加するにつれてレイテンシとメモリオーバーヘッドに悩まされ、ローカルのままである。
SSCを具現化するための拡張性のある時空間ガウス分割フレームワーク TGSFormer を提案する。
論文 参考訳(メタデータ) (2025-11-29T03:47:14Z) - DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining [21.816338275013702]
ネットワークの注意点に直接リー群差分バイアスを注入する,効率的なビデオデラミニング手法であるDeLiVRを提案する。
回転有界リー相対バイアスは、コンパクトな予測モジュールを用いて各フレームの面内角度を予測する。
微分群変位は、速度を推定するために隣接するフレーム間の角度差を計算する。
このバイアスは、時間的減衰とアテンションマスクを組み合わせて、雨の流れの方向を正確に一致させながら、フレーム間の関係に焦点を当てる。
論文 参考訳(メタデータ) (2025-09-26T00:29:36Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - FRAM: Frobenius-Regularized Assignment Matching with Mixed-Precision Computing [6.987672546471471]
二次割当て問題(QAP)は、2つのグラフ間のノード対応を確立することを目的としている。
我々は,理論上基礎を成す混合精度アーキテクチャを開発し,精度の高い加速を実現する。
FRAMはCPU-FP64に比べて最大370倍のスピードアップを実現しており、解の精度は無視できない。
論文 参考訳(メタデータ) (2025-07-26T07:35:09Z) - Speedy Deformable 3D Gaussian Splatting: Fast Rendering and Compression of Dynamic Scenes [57.69608119350651]
動的シーンへの3次元ガウススティング(3DGS)の最近の拡張は、ニューラルネットワークを用いて各ガウスの時間変化変形を予測することによって、高品質な新規ビュー合成を実現する。
しかしながら、ガウス毎のニューラルネットワークを各フレームで実行することは、レンダリング速度を制限し、メモリと計算要求を増大させる、重大なボトルネックとなる。
動的3DGSおよび4DGS表現のレンダリング速度を2つの相補的手法により低減し,高速化する汎用パイプラインであるSpeedy Deformable 3D Gaussian Splatting(SpeeDe3DGS)を提案する。
論文 参考訳(メタデータ) (2025-06-09T16:30:48Z) - NeuroGauss4D-PCI: 4D Neural Fields and Gaussian Deformation Fields for Point Cloud Interpolation [19.28734823769732]
補間は、点の空間性、複雑な時間的ダイナミクス、そして、疎度な時間的情報から完全な3次元点雲を導出することの難しさから課題に直面している。
本稿では,様々な動的シーンにまたがる複雑な非剛性変形のモデル化に優れるNeuroGauss4D-corruptを提案する。
NeuroGauss4D-corruptは、オブジェクトレベルのタスクと大規模自律運転データセットの両方で、主要なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-05-23T07:21:01Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。