論文の概要: Unsupervised Object Representation Learning using Translation and
Rotation Group Equivariant VAE
- arxiv url: http://arxiv.org/abs/2210.12918v1
- Date: Mon, 24 Oct 2022 02:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:59:03.169196
- Title: Unsupervised Object Representation Learning using Translation and
Rotation Group Equivariant VAE
- Title(参考訳): 変換と回転群同変量vaeを用いた教師なしオブジェクト表現学習
- Authors: Alireza Nasiri, Tristan Bepler
- Abstract要約: TARGET-VAEは、トランスレーショナルおよびローテーショングループに等価な変分自動エンコーダフレームワークである。
TARGET-VAEは,従来の方法の病態を著しく改善し,回避する監督なしで,絡み合った表現を学習することを示す。
極めて正確な教師なしのポーズと位置推定を行うことができる。
- 参考スコア(独自算出の注目度): 5.254093731341154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many imaging modalities, objects of interest can occur in a variety of
locations and poses (i.e. are subject to translations and rotations in 2d or
3d), but the location and pose of an object does not change its semantics (i.e.
the object's essence). That is, the specific location and rotation of an
airplane in satellite imagery, or the 3d rotation of a chair in a natural
image, or the rotation of a particle in a cryo-electron micrograph, do not
change the intrinsic nature of those objects. Here, we consider the problem of
learning semantic representations of objects that are invariant to pose and
location in a fully unsupervised manner. We address shortcomings in previous
approaches to this problem by introducing TARGET-VAE, a translation and
rotation group-equivariant variational autoencoder framework. TARGET-VAE
combines three core innovations: 1) a rotation and translation
group-equivariant encoder architecture, 2) a structurally disentangled
distribution over latent rotation, translation, and a
rotation-translation-invariant semantic object representation, which are
jointly inferred by the approximate inference network, and 3) a spatially
equivariant generator network. In comprehensive experiments, we show that
TARGET-VAE learns disentangled representations without supervision that
significantly improve upon, and avoid the pathologies of, previous methods.
When trained on images highly corrupted by rotation and translation, the
semantic representations learned by TARGET-VAE are similar to those learned on
consistently posed objects, dramatically improving clustering in the semantic
latent space. Furthermore, TARGET-VAE is able to perform remarkably accurate
unsupervised pose and location inference. We expect methods like TARGET-VAE
will underpin future approaches for unsupervised object generation, pose
prediction, and object detection.
- Abstract(参考訳): 多くの画像モダリティにおいて、興味の対象は様々な場所やポーズ(すなわち、2dまたは3dにおける翻訳や回転の対象)で起こりうるが、対象の位置とポーズはその意味論(すなわち、対象の本質)を変えない。
すなわち、衛星画像における航空機の特定の位置と回転、または自然画像における椅子の3次元回転、または低温電子マイクログラフにおける粒子の回転は、それらの物体の本質的な性質を変えることはない。
本稿では,ポーズや位置に対して完全に教師なしの方法で不変な物体の意味表現を学ぶ問題を考える。
本稿では,翻訳・回転群等価変分オートエンコーダフレームワークであるTARGET-VAEを導入することで,この問題に対する従来のアプローチの欠点に対処する。
TARGET-VAEは3つのコアイノベーションを組み合わせています。
1)回転変換群同変エンコーダ構造,
2 近似推論ネットワークにより共同で推定される潜在回転、翻訳、および回転-翻訳-不変意味オブジェクト表現上の構造的異方性分布
3)空間的に均等なジェネレータネットワーク。
総合的な実験では,TARGET-VAEは,従来の方法の病態を著しく改善し,回避する監督なしで,絡み合った表現を学習する。
TARGET-VAEが学習したセマンティック表現は、回転と翻訳によって高度に劣化した画像に基づいて訓練されると、一貫したポーズのオブジェクトで学んだものと類似し、セマンティック潜在空間におけるクラスタリングを劇的に改善する。
さらに、TARGET-VAEは驚くほど正確な教師なしポーズと位置推定を行うことができる。
我々は、target-vaeのような手法が、教師なしオブジェクト生成、ポーズ予測、およびオブジェクト検出のための将来のアプローチとなることを期待している。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Equivariant Spatio-Temporal Self-Supervision for LiDAR Object Detection [37.142470149311904]
本研究では,空間的および時間的拡張を両立させることにより,時間的同変学習の枠組みを提案する。
既存の等変および不変のアプローチを多くの設定で上回る3次元物体検出のための事前学習法を示す。
論文 参考訳(メタデータ) (2024-04-17T20:41:49Z) - FRED: Towards a Full Rotation-Equivariance in Aerial Image Object
Detection [28.47314201641291]
FRED(Fully Rotation-Equivariant Oriented Object Detector)を導入する。
提案手法は,DOTA-v1.0では同等の性能を示し,DOTA-v1.5では1.5mAP,モデルパラメータでは16%と大幅に低下する。
論文 参考訳(メタデータ) (2023-12-22T09:31:43Z) - Dual Quaternion Rotational and Translational Equivariance in 3D Rigid
Motion Modelling [6.130606305848124]
点集合の回転と変換を共同で記述した3次元空間における剛体運動の2つの四元数表現を提案する。
我々のアプローチは翻訳と回転の同変であり、データの変化に苦しむことはない。
この定式化が与えられたモデルは、人間のポーズ予測アプリケーションにおいて、以前のアプローチより優れていた。
論文 参考訳(メタデータ) (2023-10-11T16:06:14Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - PaRot: Patch-Wise Rotation-Invariant Network via Feature Disentanglement
and Pose Restoration [16.75367717130046]
最先端モデルは回転に対して堅牢ではなく、実際の応用に先立って未知のままである。
Patch-wise Rotation-invariant Network (PaRot)を導入する。
本モジュールは高品質な回転ロバスト特性を抽出し,提案した軽量モデルにより競争結果が得られた。
論文 参考訳(メタデータ) (2023-02-06T02:13:51Z) - Robust Change Detection Based on Neural Descriptor Fields [53.111397800478294]
我々は、部分的に重なり合う観測結果とノイズのある局所化結果に頑健なオブジェクトレベルのオンライン変化検出手法を開発した。
形状符号の類似性を利用して物体を連想させ, 局所的な物体近傍の空間配置を比較することにより, 観測重複や局所雑音に対する頑健性を示す。
論文 参考訳(メタデータ) (2022-08-01T17:45:36Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Rotationally Equivariant 3D Object Detection [36.16978685382616]
本研究では3次元シーンにおける物体検出問題について考察する。
3次元オブジェクト検出器にオブジェクトレベルの回転同値を組み込むためには,局所的なオブジェクトレベルの空間的支持を伴う同変特徴を抽出する機構が必要である。
屋内シーンと自律走行データセットの両方で実験したところ、EONの設計を既存の最先端の3Dオブジェクト検出器に接続することで、大幅な改善が得られた。
論文 参考訳(メタデータ) (2022-04-28T16:48:50Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。