論文の概要: Geometrically Constrained and Token-Based Probabilistic Spatial Transformers
- arxiv url: http://arxiv.org/abs/2509.11218v1
- Date: Sun, 14 Sep 2025 11:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.9805
- Title: Geometrically Constrained and Token-Based Probabilistic Spatial Transformers
- Title(参考訳): 幾何学的制約とトークンに基づく確率空間変換器
- Authors: Johann Schmidt, Sebastian Stober,
- Abstract要約: 我々は、トランスフォーマーベースのビジョンパイプラインの標準化ツールとして、空間トランスフォーマーネットワーク(STN)を再考する。
本稿では、堅牢性を向上させる確率的、コンポーネントワイドな拡張を提案する。
本手法が他のSTNと比較して頑健さを常に向上することを示す。
- 参考スコア(独自算出の注目度): 5.437226012505534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-grained visual classification (FGVC) remains highly sensitive to geometric variability, where objects appear under arbitrary orientations, scales, and perspective distortions. While equivariant architectures address this issue, they typically require substantial computational resources and restrict the hypothesis space. We revisit Spatial Transformer Networks (STNs) as a canonicalization tool for transformer-based vision pipelines, emphasizing their flexibility, backbone-agnostic nature, and lack of architectural constraints. We propose a probabilistic, component-wise extension that improves robustness. Specifically, we decompose affine transformations into rotation, scaling, and shearing, and regress each component under geometric constraints using a shared localization encoder. To capture uncertainty, we model each component with a Gaussian variational posterior and perform sampling-based canonicalization during inference.A novel component-wise alignment loss leverages augmentation parameters to guide spatial alignment. Experiments on challenging moth classification benchmarks demonstrate that our method consistently improves robustness compared to other STNs.
- Abstract(参考訳): 微粒な視覚分類(FGVC)は、オブジェクトが任意の向き、スケール、視点歪みの下で現れる幾何学的変動に非常に敏感である。
等変的なアーキテクチャはこの問題に対処するが、それらは通常、かなりの計算資源を必要とし、仮説空間を制限する。
我々は,Spatial Transformer Networks (STN) をトランスフォーマーベースのビジョンパイプラインの標準化ツールとして再検討し,その柔軟性,バックボーンに依存しない性質,アーキテクチャ制約の欠如を強調した。
本稿では、堅牢性を向上させる確率的、コンポーネントワイドな拡張を提案する。
具体的には, アフィン変換を回転, スケーリング, せん断に分解し, 共有ローカライゼーションエンコーダを用いて各成分を幾何学的制約下で回帰する。
不確かさを捉えるため,各成分をガウス変分後部でモデル化し,推論中にサンプリングに基づく正準化を行い,新しいコンポーネントワイドアライメント損失は拡張パラメータを利用して空間アライメントを導出する。
本手法が他のSTNと比較して頑健さを常に向上することを示す。
関連論文リスト
- Beyond Optimization: Intelligence as Metric-Topology Factorization under Geometric Incompleteness [6.0044467881527614]
我々は、知性は固定迷路を通したナビゲーションではなく、所望の振る舞いが安定した引力となるように表現幾何学を再構築する能力であると主張している。
任意の固定計量が幾何学的に不完全であることを示す:任意の局所計量表現に対して、幾らかの位相変換はそれを特異あるいは非コヒーレントにする。
本稿では,メモリアモルト化メトリック推論によるMTFを実装したTopological Urysohn Machine (TUM)を紹介する。
論文 参考訳(メタデータ) (2026-02-08T13:59:22Z) - SONIC: Spectral Oriented Neural Invariant Convolutions [0.0]
畳み込みニューラルネットワーク(CNN)は、ローカルパッチをスキャンする固定サイズのカーネルに依存している。
ViTはグローバル接続を提供するが、空間的帰納バイアスがなく、明示的な位置エンコーディングに依存し、初期パッチサイズに結びついている。
本稿では,共振子演算子を,一組の共振子選択成分を用いてモデル化する連続スペクトルパラメータ化SONICを紹介する。
論文 参考訳(メタデータ) (2026-01-27T18:51:11Z) - Equivariant-Aware Structured Pruning for Efficient Edge Deployment: A Comprehensive Framework with Adaptive Fine-Tuning [0.0]
本稿では,グループ同変畳み込みニューラルネットワーク(G-CNN)と同変対応型構造化プルーニングを組み合わせたフレームワークを提案する。
提案手法は,e2cnn層構造の解析とニューロンレベルのプルーニングを完全連結成分に適用することにより,同変特性を保っている。
衛星画像 (EuroSAT) と標準ベンチマーク (CIFAR-10, Rotated MNIST) を用いて, 様々な領域で有効性を示す。
論文 参考訳(メタデータ) (2025-11-21T13:41:47Z) - Robust Canonicalization through Bootstrapped Data Re-Alignment [5.437226012505534]
昆虫や鳥の識別などのきめ細かい視覚分類タスクは、微妙な視覚的手がかりに対する感受性を必要とする。
分散を低減してトレーニングサンプルを反復的に調整するブートストラップアルゴリズムを提案する。
本手法は,拡張と同等の性能を保ちながら,同変および正準化ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-09T13:05:20Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Low-Rank Tensor Recovery via Variational Schatten-p Quasi-Norm and Jacobian Regularization [49.85875869048434]
暗黙的神経表現のためのニューラルネットワークによりパラメータ化されたCPベースの低ランクテンソル関数を提案する。
本研究では、スペーサーCP分解を実現するために、冗長なランク1成分に変分Schatten-p quasi-normを導入する。
滑らか性のために、ヤコビアンとハッチンソンのトレース推定器のスペクトルノルムに基づく正規化項を提案する。
論文 参考訳(メタデータ) (2025-06-27T11:23:10Z) - CP$^2$: Leveraging Geometry for Conformal Prediction via Canonicalization [51.716834831684004]
幾何データシフトにおける共形予測(CP)の問題について検討する。
本稿では,幾何的ポーズなどの幾何学的情報を統合することを提案する。
論文 参考訳(メタデータ) (2025-06-19T10:12:02Z) - Geometry-Informed Neural Operator Transformer [0.8906214436849201]
この研究は、Geometry-Informed Neural Operator Transformer (GINOT)を導入し、トランスフォーマーアーキテクチャとニューラルオペレータフレームワークを統合し、任意のジオメトリの前方予測を可能にする。
GINOTの性能は複数の挑戦的なデータセットで検証され、複雑で任意の2Dおよび3Dジオメトリに対して高い精度と強力な一般化能力を示す。
論文 参考訳(メタデータ) (2025-04-28T03:39:27Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Relative Representations: Topological and Geometric Perspectives [50.85040046976025]
相対表現はゼロショットモデルの縫合に対する確立されたアプローチである。
相対変換において正規化手順を導入し、非等方的再スケーリングや置換に不変となる。
第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:09:22Z) - EqNIO: Subequivariant Neural Inertial Odometry [33.96552018734359]
重力ベクトルの周りで回転すると、IMUデータは等変的に変形し、重力に平行な任意の平面に対して反射することを示す。
そして、IMUデータをこのフレームにマッピングし、既製の慣性オドメトリーネットワークで直接使用できる不変な正準化を実現する。
論文 参考訳(メタデータ) (2024-08-12T17:42:46Z) - Optimization Dynamics of Equivariant and Augmented Neural Networks [2.7918308693131135]
対称データに基づくニューラルネットワークの最適化について検討する。
アーキテクチャを制約する戦略を、データ拡張を使用する戦略と同等に扱う戦略と比較する。
後者の状況においても, 定常点が拡張トレーニングにおいて不安定であることは明らかだが, 明らかな同変モデルに対しては安定である。
論文 参考訳(メタデータ) (2023-03-23T17:26:12Z) - Rotation-Invariant Transformer for Point Cloud Matching [42.5714375149213]
我々は,回転不変変換器であるRoITrを導入し,点クラウドマッチングタスクにおけるポーズ変動に対処する。
本稿では,自己認識機構によって学習した,回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。
RoITrは、Inlier RatioとRegistration Recallの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。
論文 参考訳(メタデータ) (2023-03-14T20:55:27Z) - Improving the Sample-Complexity of Deep Classification Networks with
Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。
そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。
本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文 参考訳(メタデータ) (2022-02-08T16:16:11Z) - Revisiting Transformation Invariant Geometric Deep Learning: Are Initial
Representations All You Need? [80.86819657126041]
変換不変および距離保存初期表現は変換不変性を達成するのに十分であることを示す。
具体的には、多次元スケーリングを変更することで、変換不変かつ距離保存された初期点表現を実現する。
我々は、TinvNNが変換不変性を厳密に保証し、既存のニューラルネットワークと組み合わせられるほど汎用的で柔軟なことを証明した。
論文 参考訳(メタデータ) (2021-12-23T03:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。