論文の概要: Beyond flattening: a geometrically principled positional encoding for vision transformers with Weierstrass elliptic functions
- arxiv url: http://arxiv.org/abs/2508.19167v1
- Date: Tue, 26 Aug 2025 16:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.915294
- Title: Beyond flattening: a geometrically principled positional encoding for vision transformers with Weierstrass elliptic functions
- Title(参考訳): 平坦化を超えて:Weierstrass楕円関数を持つ視覚変換器の幾何学的原理的位置符号化
- Authors: Zhihang Xin, Xitong Hu, Rui Wang,
- Abstract要約: 視覚変換器はコンピュータビジョンタスクにおいて顕著な成功を収めた。
伝統的な位置符号化アプローチはユークリッド空間距離とシーケンシャルインデックス距離との間の単調な対応を確立するのに失敗する。
WEF-PE(英語版)は、自然複素領域表現による埋め込み2次元座標を直接扱う数学的原理のアプローチである。
- 参考スコア(独自算出の注目度): 2.8199098530835127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have demonstrated remarkable success in computer vision tasks, yet their reliance on learnable one-dimensional positional embeddings fundamentally disrupts the inherent two-dimensional spatial structure of images through patch flattening procedures. Traditional positional encoding approaches lack geometric constraints and fail to establish monotonic correspondence between Euclidean spatial distances and sequential index distances, thereby limiting the model's capacity to leverage spatial proximity priors effectively. We propose Weierstrass Elliptic Function Positional Encoding (WEF-PE), a mathematically principled approach that directly addresses two-dimensional coordinates through natural complex domain representation, where the doubly periodic properties of elliptic functions align remarkably with translational invariance patterns commonly observed in visual data. Our method exploits the non-linear geometric nature of elliptic functions to encode spatial distance relationships naturally, while the algebraic addition formula enables direct derivation of relative positional information between arbitrary patch pairs from their absolute encodings. Comprehensive experiments demonstrate that WEF-PE achieves superior performance across diverse scenarios, including 63.78\% accuracy on CIFAR-100 from-scratch training with ViT-Tiny architecture, 93.28\% on CIFAR-100 fine-tuning with ViT-Base, and consistent improvements on VTAB-1k benchmark tasks. Theoretical analysis confirms the distance-decay property through rigorous mathematical proof, while attention visualization reveals enhanced geometric inductive bias and more coherent semantic focus compared to conventional approaches.The source code implementing the methods described in this paper is publicly available on GitHub.
- Abstract(参考訳): 視覚変換器はコンピュータビジョンタスクにおいて顕著な成功を収めてきたが、学習可能な1次元位置埋め込みに依存しているため、パッチ平らな処理によって画像の2次元空間構造を根本的に破壊する。
伝統的な位置符号化手法は幾何的制約を欠き、ユークリッド空間距離と逐次指数距離との単調対応を確立できないため、空間近接先行を効果的に活用するためのモデルの能力を制限する。
Weierstrass Elliptic Function Positional Encoding (WEF-PE) は、2次元座標を自然な複素領域表現によって直接処理する数学的に原理化された手法である。
本手法は楕円関数の非線形幾何学的性質を利用して空間距離関係を自然にエンコードし,代数的加算公式により任意のパッチペア間の相対的な位置情報の絶対エンコーディングから直接導出することができる。
総合的な実験により、WEF-PEは、CIFAR-100のViT-Tinyアーキテクチャによるオフスクラッチトレーニングにおける63.78\%の精度、CIFAR-100のVT-Baseによる微調整における93.28\%の精度、VTAB-1kベンチマークタスクにおける一貫した改善など、様々なシナリオで優れたパフォーマンスを実現することが示されている。
理論的解析により,厳密な数学的証明による距離デカイ特性が確認される一方で,注目の可視化により,従来の手法に比べて幾何帰納的バイアスが向上し,一貫性のあるセマンティクスが重視されることが明らかとなった。この記事では,その手法を実装したソースコードをGitHubで公開している。
関連論文リスト
- Proximal Vision Transformer: Enhancing Feature Representation through Two-Stage Manifold Geometry [7.3623134099785155]
ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいて広く認知され、その自己認識機構を活用して様々なタスクで顕著な成功を収めている。
本稿では,近位ツールとViTを統合した新しいフレームワークを提案し,統一的な幾何最適化手法を提案する。
実験結果から,提案手法は分類精度とデータ分布の点で従来のViTよりも優れていたことが確認された。
論文 参考訳(メタデータ) (2025-08-23T16:39:09Z) - Geometric Operator Learning with Optimal Transport [77.16909146519227]
複素測地上での偏微分方程式(PDE)に対する演算子学習に最適輸送(OT)を統合することを提案する。
表面に焦点を当てた3次元シミュレーションでは、OTベースのニューラルオペレーターが表面形状を2次元パラメータ化潜在空間に埋め込む。
ShapeNet-Car と DrivAerNet-Car を用いたレイノルズ平均化 Navier-Stokes 方程式 (RANS) を用いた実験により,提案手法は精度の向上と計算コストの削減を図った。
論文 参考訳(メタデータ) (2025-07-26T21:28:25Z) - Enforcing Latent Euclidean Geometry in Single-Cell VAEs for Manifold Interpolation [79.27003481818413]
離散的様相変分オートエンコーダの潜在多様体をユークリッド幾何学へ正規化する訓練フレームワークであるFlatVIを紹介する。
遅延空間の直線を復号化された単セル多様体上の測地線に近似させることで、FlatVIは下流アプローチとの整合性を高める。
論文 参考訳(メタデータ) (2025-07-15T23:08:14Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - GeloVec: Higher Dimensional Geometric Smoothing for Coherent Visual Feature Extraction in Image Segmentation [0.0]
GeloVecはセマンティックセグメンテーションのための新しいCNNベースの注意スムーシングフレームワークである。
視覚的コヒーレント領域間の頑健な多様体関係を確立するために、高次元幾何学的滑らか化法を実装している。
本フレームワークは,変換時の情報損失が欠如しているため,学習分野にまたがる強力な一般化能力を示す。
論文 参考訳(メタデータ) (2025-05-02T07:07:00Z) - Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。
GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。
GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T18:56:19Z) - Neural Isometries: Taming Transformations for Equivariant ML [8.203292895010748]
本稿では,観測空間を汎用潜在空間にマップする方法を学習する自動エンコーダフレームワークであるNeural Isometriesを紹介する。
トレーニング済みの潜伏空間で動作する単純なオフ・ザ・シェルフ同変ネットワークは、巧妙に設計された手作りのネットワークと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:24:25Z) - Towards Geometric-Photometric Joint Alignment for Facial Mesh Registration [3.1932242398896964]
本稿では,GPJA法を提案する。
幾何学的情報と測光的情報を組み合わせることで、個々の人間の表情をピクセルレベルの精度で整列する。
この一貫性は、フェースアニメーション、再パラメータ化、およびフェースモデリングおよび効率を向上したアプリケーションのためのその他のバッチ操作の恩恵を受ける。
論文 参考訳(メタデータ) (2024-03-05T03:39:23Z) - Solving High-Dimensional PDEs with Latent Spectral Models [74.1011309005488]
我々は,高次元PDEの効率的かつ高精度な解法に向けて,Latent Spectral Models (LSM) を提案する。
数値解析において古典スペクトル法に着想を得て,潜時空間におけるPDEを解くために,ニューラルスペクトルブロックを設計する。
LSMは、一貫した最先端を実現し、7つのベンチマークで平均11.5%の相対的な利益を得る。
論文 参考訳(メタデータ) (2023-01-30T04:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。