論文の概要: Invaria: Learning Scale and Density Invariance in Point Clouds via Next-Resolution Prediction
- arxiv url: http://arxiv.org/abs/2605.15923v1
- Date: Fri, 15 May 2026 13:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.288574
- Title: Invaria: Learning Scale and Density Invariance in Point Clouds via Next-Resolution Prediction
- Title(参考訳): Invaria:Next-Resolution Predictionによる点雲の学習スケールと密度不変性
- Authors: Chun-Peng Chang, Shaoxiang Wang, Alain Pagani, Dariu Gavrila, Holger Caesar,
- Abstract要約: 一般化のための3Dポイントクラウドエンコーダの故障について検討する。
既存のモデルは、サンプリングの解像度とスケールの変更に非常に敏感である。
Invariaは、次の解像度の予測と受容場キャリブレーションによってスケールと密度の不変性を達成できる点雲エンコーダである。
- 参考スコア(独自算出の注目度): 17.239765860831145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern image encoders achieve high generalization by decoupling semantic meaning from resolution, an ability yet to be fully realized in the 3D domain. We investigate the failure of 3D point cloud encoders to achieve similar generalization and find that existing models are highly sensitive to sampling resolution and scale changes, leading to significant performance degradation. This sensitivity is a major bottleneck for real-world deployment in robotics, as it suggests models overfit to specific quantization densities and object scales rather than learning invariant semantic features. To mitigate this dependency, we propose Invaria, a point cloud encoder that achieves scale and density invariance through next-resolution prediction and receptive field calibration. While our objective is not the explicit generation of high-resolution point clouds, we find that this training objective encourages the model to learn robust, structural invariants. The resulting encoder achieves significant performance gains during resolution shifts while maintaining high efficiency through a compact model size and reduced token requirements. Specifically, on ScanNet, Invaria achieves a 56.0\% higher mIoU at 3$\times$ lower resolution and a 20\% improvement when the objects scale is reduced by a factor of 3. These gains are achieved with a 45\% smaller model size and an average reduction of 40\% in input tokens.
- Abstract(参考訳): 現代の画像エンコーダは3次元領域ではまだ完全に実現されていない解像度から意味を分離することで高い一般化を実現している。
類似の一般化を実現するために3Dポイント・クラウド・エンコーダの故障を調査し,既存のモデルがサンプリング分解能やスケール変化に非常に敏感であることを見出した。
この感度は、不変のセマンティック特徴を学習するのではなく、特定の量子化密度やオブジェクトスケールに過度に適合するモデルを提案するため、ロボット工学における現実の展開において、大きなボトルネックとなる。
この依存性を軽減するために、次の解像度の予測と受容場キャリブレーションによってスケールと密度の不変性を達成できる点雲エンコーダInvariaを提案する。
我々の目標は高解像度の点雲を明示的に生成することではなく、この訓練の目的はモデルに堅牢で構造的不変性を学ぶことを奨励することにある。
得られたエンコーダは、コンパクトなモデルサイズとトークン要求の低減により高効率を維持しながら、解像度シフト中に大きな性能向上を達成する。
具体的には、ScanNet上では、Invariaは3$\times$低い解像度で56.0\%のmIoUを達成する。
これらの利得は、45\%のモデルサイズと、入力トークンの平均40\%の削減で達成される。
関連論文リスト
- GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - DyRA: Portable Dynamic Resolution Adjustment Network for Existing Detectors [0.669087470775851]
本稿では,既存の検出器に画像特異的なスケールファクタを提供する動的解像度調整ネットワークDyRAを紹介する。
ロス関数は、スケールのための異なるサイズのオブジェクトの異なる目的に対する精度低下を最小限に抑えるために考案された。
論文 参考訳(メタデータ) (2023-11-28T07:52:41Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - StarNet: Style-Aware 3D Point Cloud Generation [82.30389817015877]
StarNetは、マッピングネットワークを使用して高忠実度および3Dポイントクラウドを再構築し、生成することができる。
我々のフレームワークは、クラウドの再構築と生成タスクにおいて、様々なメトリクスで同等の最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2023-03-28T08:21:44Z) - Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - Hyperspherical Quantization: Toward Smaller and More Accurate Models [17.154801913113566]
ベクトル量子化は、モデルウェイトを高精度な埋め込みでインデックス化することで、モデルサイズを減らすことを目的としている。
バイナリや他の低精度量子化法は、モデルのサイズを32$times$まで削減できるが、かなりの精度低下を犠牲にすることができる。
より小型で高精度な圧縮モデルを生成するために, 3次量子化のための効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-24T04:42:15Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。