論文の概要: EquiCaps: Predictor-Free Pose-Aware Pre-Trained Capsule Networks
- arxiv url: http://arxiv.org/abs/2506.09895v1
- Date: Wed, 11 Jun 2025 16:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.119269
- Title: EquiCaps: Predictor-Free Pose-Aware Pre-Trained Capsule Networks
- Title(参考訳): EquiCaps: プレトレーニング済みのカプセルネットワークを予測不要に
- Authors: Athinoulla Konstantinou, Georgios Leontidis, Mamatha Thota, Aiden Durrant,
- Abstract要約: ポーズ認識型セルフスーパービジョンのためのカプセルベースのアプローチであるEquiCapsを紹介する。
我々は,カプセルの本質的なポーズ認識機能を活用し,ポーズ推定タスクの性能を向上させる。
また、3Dオブジェクトレンダリングベンチマークデータセットの拡張である3DIEBench-Tを導入する。
- 参考スコア(独自算出の注目度): 4.424836140281847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning self-supervised representations that are invariant and equivariant to transformations is crucial for advancing beyond traditional visual classification tasks. However, many methods rely on predictor architectures to encode equivariance, despite evidence that architectural choices, such as capsule networks, inherently excel at learning interpretable pose-aware representations. To explore this, we introduce EquiCaps (Equivariant Capsule Network), a capsule-based approach to pose-aware self-supervision that eliminates the need for a specialised predictor for enforcing equivariance. Instead, we leverage the intrinsic pose-awareness capabilities of capsules to improve performance in pose estimation tasks. To further challenge our assumptions, we increase task complexity via multi-geometric transformations to enable a more thorough evaluation of invariance and equivariance by introducing 3DIEBench-T, an extension of a 3D object-rendering benchmark dataset. Empirical results demonstrate that EquiCaps outperforms prior state-of-the-art equivariant methods on rotation prediction, achieving a supervised-level $R^2$ of 0.78 on the 3DIEBench rotation prediction benchmark and improving upon SIE and CapsIE by 0.05 and 0.04 $R^2$, respectively. Moreover, in contrast to non-capsule-based equivariant approaches, EquiCaps maintains robust equivariant performance under combined geometric transformations, underscoring its generalisation capabilities and the promise of predictor-free capsule architectures.
- Abstract(参考訳): 変換に不変で同変な自己教師付き表現を学習することは、従来の視覚的分類タスクを超えて前進するために不可欠である。
しかし、多くの手法は、カプセルネットワークのようなアーキテクチャ上の選択が本質的に解釈可能なポーズ認識表現の学習に優れているという証拠にもかかわらず、等式を符号化する予測器アーキテクチャに依存している。
そこで本研究では,カプセル型自己監督システムであるEquiCaps(Equivariant Capsule Network)を導入する。
代わりに、カプセルの本質的なポーズ認識機能を活用して、ポーズ推定タスクの性能を向上させる。
さらに,3Dオブジェクトレンダリングベンチマークデータセットの拡張である3DIEBench-Tを導入することにより,マルチジオメトリ変換によるタスクの複雑さを増大させ,不変性と等価性のより徹底的な評価を可能にする。
実験の結果、EquiCapsは3DIEBench回転予測ベンチマークでR^2$の0.78の教師レベルを達成し、SIEとCapsIEを0.05と0.04$R^2$で改善した。
さらに、非カプセルベースの同変アプローチとは対照的に、EquiCapsは幾何変換の組み合わせによる堅牢な同変性能を維持し、その一般化能力と予測自由カプセルアーキテクチャの約束を強調する。
関連論文リスト
- seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models [1.474723404975345]
本稿では,協調埋め込み型予測アーキテクチャにアーキテクチャバイアスを導入する世界モデリングフレームワークSeq-JEPAを提案する。
Seq-JEPA は2つのアーキテクチャ的に分離された表現を同時に学習する。
行動間の経路統合や眼球運動間の予測学習など、本質的に一連の観察を必要とするタスクに優れています。
論文 参考訳(メタデータ) (2025-05-06T04:39:11Z) - $SE(3)$ Equivariant Ray Embeddings for Implicit Multi-View Depth Estimation [45.26823569257832]
本稿では,同変多視点学習の深度推定への応用について検討する。
位置符号化には球高調波を用い、3次元回転同値性を確保する。
我々はPerceiver IOアーキテクチャ内で、特殊同変エンコーダとデコーダを開発する。
論文 参考訳(メタデータ) (2024-11-11T19:34:47Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Capsule Network Projectors are Equivariant and Invariant Learners [4.909818180516128]
本稿では,Capsule Networks(CapsNets)を用いた不変な自己教師型アーキテクチャを提案する。
等価な自己教師型アーキテクチャにおけるCapsNetsの使用により,下流性能が向上することが実証された。
Capsule Invariant Equivariant Network (Capsule Invariant Equivariant Network, Capsule Invariant Equivariant Network, Capsule Invariant Equivariant Network, Capsule Invariant Equivariant Network, Capsule Invariant Equivariant Network, Capsule Invariant Equivariant Network, Capsule Invariant Equivariant Network, Capsule Invariant Equivariant Network) と呼ぶこのアプローチは、同変回転タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-23T10:04:23Z) - Self-Supervised Learning for Group Equivariant Neural Networks [75.62232699377877]
群同変ニューラルネットワーク(英: Group equivariant Neural Network)は、入力の変換で通勤する構造に制限されたモデルである。
自己教師型タスクには、同変プリテキストラベルと異変コントラスト損失という2つの概念を提案する。
標準画像認識ベンチマークの実験では、同変ニューラルネットワークが提案された自己教師型タスクを利用することを示した。
論文 参考訳(メタデータ) (2023-03-08T08:11:26Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Self-Supervised 3D Hand Pose Estimation from monocular RGB via
Contrastive Learning [50.007445752513625]
本稿では,3次元ポーズ推定における構造化回帰タスクに対する自己教師付き手法を提案する。
我々は、不変および同変のコントラスト目的の影響を実験的に検討した。
追加のラベル付きデータに基づいてトレーニングされた標準のResNet-152が、FreiHAND上のPA-EPEで7.6%の改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T17:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。