論文の概要: Geometrically Constrained and Token-Based Probabilistic Spatial Transformers
- arxiv url: http://arxiv.org/abs/2509.11218v1
- Date: Sun, 14 Sep 2025 11:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.9805
- Title: Geometrically Constrained and Token-Based Probabilistic Spatial Transformers
- Title(参考訳): 幾何学的制約とトークンに基づく確率空間変換器
- Authors: Johann Schmidt, Sebastian Stober,
- Abstract要約: 我々は、トランスフォーマーベースのビジョンパイプラインの標準化ツールとして、空間トランスフォーマーネットワーク(STN)を再考する。
本稿では、堅牢性を向上させる確率的、コンポーネントワイドな拡張を提案する。
本手法が他のSTNと比較して頑健さを常に向上することを示す。
- 参考スコア(独自算出の注目度): 5.437226012505534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-grained visual classification (FGVC) remains highly sensitive to geometric variability, where objects appear under arbitrary orientations, scales, and perspective distortions. While equivariant architectures address this issue, they typically require substantial computational resources and restrict the hypothesis space. We revisit Spatial Transformer Networks (STNs) as a canonicalization tool for transformer-based vision pipelines, emphasizing their flexibility, backbone-agnostic nature, and lack of architectural constraints. We propose a probabilistic, component-wise extension that improves robustness. Specifically, we decompose affine transformations into rotation, scaling, and shearing, and regress each component under geometric constraints using a shared localization encoder. To capture uncertainty, we model each component with a Gaussian variational posterior and perform sampling-based canonicalization during inference.A novel component-wise alignment loss leverages augmentation parameters to guide spatial alignment. Experiments on challenging moth classification benchmarks demonstrate that our method consistently improves robustness compared to other STNs.
- Abstract(参考訳): 微粒な視覚分類(FGVC)は、オブジェクトが任意の向き、スケール、視点歪みの下で現れる幾何学的変動に非常に敏感である。
等変的なアーキテクチャはこの問題に対処するが、それらは通常、かなりの計算資源を必要とし、仮説空間を制限する。
我々は,Spatial Transformer Networks (STN) をトランスフォーマーベースのビジョンパイプラインの標準化ツールとして再検討し,その柔軟性,バックボーンに依存しない性質,アーキテクチャ制約の欠如を強調した。
本稿では、堅牢性を向上させる確率的、コンポーネントワイドな拡張を提案する。
具体的には, アフィン変換を回転, スケーリング, せん断に分解し, 共有ローカライゼーションエンコーダを用いて各成分を幾何学的制約下で回帰する。
不確かさを捉えるため,各成分をガウス変分後部でモデル化し,推論中にサンプリングに基づく正準化を行い,新しいコンポーネントワイドアライメント損失は拡張パラメータを利用して空間アライメントを導出する。
本手法が他のSTNと比較して頑健さを常に向上することを示す。
関連論文リスト
- Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - CP$^2$: Leveraging Geometry for Conformal Prediction via Canonicalization [51.716834831684004]
幾何データシフトにおける共形予測(CP)の問題について検討する。
本稿では,幾何的ポーズなどの幾何学的情報を統合することを提案する。
論文 参考訳(メタデータ) (2025-06-19T10:12:02Z) - Geometry-Informed Neural Operator Transformer [0.8906214436849201]
この研究は、Geometry-Informed Neural Operator Transformer (GINOT)を導入し、トランスフォーマーアーキテクチャとニューラルオペレータフレームワークを統合し、任意のジオメトリの前方予測を可能にする。
GINOTの性能は複数の挑戦的なデータセットで検証され、複雑で任意の2Dおよび3Dジオメトリに対して高い精度と強力な一般化能力を示す。
論文 参考訳(メタデータ) (2025-04-28T03:39:27Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - EqNIO: Subequivariant Neural Inertial Odometry [33.96552018734359]
重力ベクトルの周りで回転すると、IMUデータは等変的に変形し、重力に平行な任意の平面に対して反射することを示す。
そして、IMUデータをこのフレームにマッピングし、既製の慣性オドメトリーネットワークで直接使用できる不変な正準化を実現する。
論文 参考訳(メタデータ) (2024-08-12T17:42:46Z) - Optimization Dynamics of Equivariant and Augmented Neural Networks [2.7918308693131135]
対称データに基づくニューラルネットワークの最適化について検討する。
アーキテクチャを制約する戦略を、データ拡張を使用する戦略と同等に扱う戦略と比較する。
後者の状況においても, 定常点が拡張トレーニングにおいて不安定であることは明らかだが, 明らかな同変モデルに対しては安定である。
論文 参考訳(メタデータ) (2023-03-23T17:26:12Z) - Rotation-Invariant Transformer for Point Cloud Matching [42.5714375149213]
我々は,回転不変変換器であるRoITrを導入し,点クラウドマッチングタスクにおけるポーズ変動に対処する。
本稿では,自己認識機構によって学習した,回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。
RoITrは、Inlier RatioとRegistration Recallの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。
論文 参考訳(メタデータ) (2023-03-14T20:55:27Z) - Improving the Sample-Complexity of Deep Classification Networks with
Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。
そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。
本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文 参考訳(メタデータ) (2022-02-08T16:16:11Z) - Revisiting Transformation Invariant Geometric Deep Learning: Are Initial
Representations All You Need? [80.86819657126041]
変換不変および距離保存初期表現は変換不変性を達成するのに十分であることを示す。
具体的には、多次元スケーリングを変更することで、変換不変かつ距離保存された初期点表現を実現する。
我々は、TinvNNが変換不変性を厳密に保証し、既存のニューラルネットワークと組み合わせられるほど汎用的で柔軟なことを証明した。
論文 参考訳(メタデータ) (2021-12-23T03:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。