論文の概要: Equivariant Spatio-Temporal Self-Supervision for LiDAR Object Detection
- arxiv url: http://arxiv.org/abs/2404.11737v1
- Date: Wed, 17 Apr 2024 20:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:30:32.951586
- Title: Equivariant Spatio-Temporal Self-Supervision for LiDAR Object Detection
- Title(参考訳): LiDARオブジェクト検出のための等変時空間自己スーパービジョン
- Authors: Deepti Hegde, Suhas Lohit, Kuan-Chuan Peng, Michael J. Jones, Vishal M. Patel,
- Abstract要約: 本研究では,空間的および時間的拡張を両立させることにより,時間的同変学習の枠組みを提案する。
既存の等変および不変のアプローチを多くの設定で上回る3次元物体検出のための事前学習法を示す。
- 参考スコア(独自算出の注目度): 37.142470149311904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Popular representation learning methods encourage feature invariance under transformations applied at the input. However, in 3D perception tasks like object localization and segmentation, outputs are naturally equivariant to some transformations, such as rotation. Using pre-training loss functions that encourage equivariance of features under certain transformations provides a strong self-supervision signal while also retaining information of geometric relationships between transformed feature representations. This can enable improved performance in downstream tasks that are equivariant to such transformations. In this paper, we propose a spatio-temporal equivariant learning framework by considering both spatial and temporal augmentations jointly. Our experiments show that the best performance arises with a pre-training approach that encourages equivariance to translation, scaling, and flip, rotation and scene flow. For spatial augmentations, we find that depending on the transformation, either a contrastive objective or an equivariance-by-classification objective yields best results. To leverage real-world object deformations and motion, we consider sequential LiDAR scene pairs and develop a novel 3D scene flow-based equivariance objective that leads to improved performance overall. We show our pre-training method for 3D object detection which outperforms existing equivariant and invariant approaches in many settings.
- Abstract(参考訳): 一般的な表現学習法は、入力に適用される変換の下で特徴不変性を奨励する。
しかし、物体の局所化やセグメンテーションのような3次元知覚タスクでは、出力は回転のようないくつかの変換と自然に同値である。
特定の変換の下での特徴の同値性を促進する事前学習損失関数を使用することで、変換された特徴表現間の幾何学的関係の情報を保持しつつ、強い自己超越信号が得られる。
これにより、このような変換に同値な下流タスクのパフォーマンスが向上する。
本稿では,空間的・時間的拡張を併用した時空間同変学習フレームワークを提案する。
本実験は,翻訳,スケーリング,フリップ,回転,シーンフローに等しくなる事前学習アプローチによって,最高の性能が生じることを示す。
空間拡張では、変換によっては、コントラスト目的か等分散的分類目的かによって最良の結果が得られることが分かる。
実世界の物体の変形と動きを活用するため、連続的なLiDARシーンペアを考察し、全体的な性能向上につながる新しい3Dシーンフローベースの等分散オブジェクトを開発する。
既存の等変および不変のアプローチを多くの設定で上回る3次元物体検出のための事前学習法を示す。
関連論文リスト
- FRED: Towards a Full Rotation-Equivariance in Aerial Image Object
Detection [28.47314201641291]
FRED(Fully Rotation-Equivariant Oriented Object Detector)を導入する。
提案手法は,DOTA-v1.0では同等の性能を示し,DOTA-v1.5では1.5mAP,モデルパラメータでは16%と大幅に低下する。
論文 参考訳(メタデータ) (2023-12-22T09:31:43Z) - Structuring Representation Geometry with Rotationally Equivariant
Contrastive Learning [42.20218717636608]
自己教師付き学習は、画像などの生の知覚データを、単純なユークリッド距離が有意義なデータの変動を測定するようなコンパクトな空間に変換する。
この定式化は、埋め込み空間の単純な変換に対応するように入力空間の変換を強制することにより、埋め込み空間に追加の幾何学的構造を加えることによって拡張する。
我々は、同変損失と非崩壊項を単に組み合わせれば、非自明な表現が得られることを示す。
論文 参考訳(メタデータ) (2023-06-24T10:07:52Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Self-supervised learning of Split Invariant Equivariant representations [0.0]
55以上の3Dモデルと250万以上の画像からなる3DIEBenchを導入し、オブジェクトに適用される変換を完全に制御する。
我々はハイパーネットワークに基づく予測アーキテクチャを導入し、不変表現を非分散に分解することなく学習する。
SIE(Split Invariant-Equivariant)を導入し、よりリッチな表現を学ぶために、ハイパーネットワークベースの予測器と表現を2つの部分に分割する。
論文 参考訳(メタデータ) (2023-02-14T07:53:18Z) - 3D Equivariant Graph Implicit Functions [51.5559264447605]
局所的詳細のモデリングを容易にする同変層を持つグラフ暗黙関数の新しいファミリを導入する。
提案手法は,ShapeNet再構成作業において既存の回転同変暗黙関数を0.69から0.89に改善する。
論文 参考訳(メタデータ) (2022-03-31T16:51:25Z) - Self-Supervised 3D Hand Pose Estimation from monocular RGB via
Contrastive Learning [50.007445752513625]
本稿では,3次元ポーズ推定における構造化回帰タスクに対する自己教師付き手法を提案する。
我々は、不変および同変のコントラスト目的の影響を実験的に検討した。
追加のラベル付きデータに基づいてトレーニングされた標準のResNet-152が、FreiHAND上のPA-EPEで7.6%の改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T17:48:57Z) - Equivariant Point Network for 3D Point Cloud Analysis [17.689949017410836]
点雲解析のための実効的で実用的なSE(3)(3次元翻訳と回転)同変ネットワークを提案する。
まず,6次元の畳み込みを2つの分離可能な畳み込み作用素に分解する新しい枠組みであるSE(3)分離点畳み込みを提案する。
第2に,同変特徴の表現性を効果的に活用するアテンション層を導入する。
論文 参考訳(メタデータ) (2021-03-25T21:57:10Z) - Rotation-Invariant Point Convolution With Multiple Equivariant
Alignments [1.0152838128195467]
回転同変アライメントを用いることで、任意の畳み込み層を回転不変にすることができることを示す。
このコア層では、オブジェクト分類とセマンティックセグメンテーションの両方における最先端の結果を改善する回転不変アーキテクチャを設計します。
論文 参考訳(メタデータ) (2020-12-07T20:47:46Z) - Spherical Feature Transform for Deep Metric Learning [58.35971328774927]
本研究は,新しい球面特徴変換手法を提案する。
これは、クラス間の同一共分散の仮定を、超球面上の異なるクラスの類似共分散の仮定に緩和する。
本研究では,2つの異なる変換間の関係について,簡便かつ効果的な学習法と深度解析を行う。
論文 参考訳(メタデータ) (2020-08-04T11:32:23Z) - SE(3)-Transformers: 3D Roto-Translation Equivariant Attention Networks [71.55002934935473]
連続的な3次元ロト変換の下で同変である3次元点雲とグラフに対する自己アテンションモジュールの変種であるSE(3)-Transformerを導入する。
我々は, 入力の回転下での予測の頑健性を示す, おもちゃのN体粒子シミュレーションデータセットを用いて, モデルの評価を行った。
論文 参考訳(メタデータ) (2020-06-18T13:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。