論文の概要: Weierstrass Positional Encoding for Vision Transformers
- arxiv url: http://arxiv.org/abs/2605.23719v1
- Date: Wed, 20 May 2026 13:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.402684
- Title: Weierstrass Positional Encoding for Vision Transformers
- Title(参考訳): 視覚変換器のWeierstrass位置符号化
- Authors: Zhihang Xin, Rui Wang, Xitong Hu, Xiaojun Wu,
- Abstract要約: 視覚変換器はコンピュータビジョンにおいて顕著な成功を収めてきたが、一次元位置符号化の共通利用は、パッチフラット化後の画像の2次元構造を弱める。
Weierstrass elliptic Positional geometry Compute (WePE)を提案する。
WePEはプラグアンドプレイであり、解像度に依存しないため、既存のViTとシームレスに統合できる。
- 参考スコア(独自算出の注目度): 13.639230128765988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have achieved remarkable success in computer vision, but their common use of learnable one-dimensional positional encodings weakens the inherent two-dimensional spatial structure of images after patch flattening. Existing positional encodings often lack geometric constraints and do not preserve a monotonic relationship between Euclidean spatial distances and sequential index distances, limiting ViTs' ability to exploit spatial proximity priors. Motivated by the usefulness of periodicity in positional encoding, we propose Weierstrass elliptic Positional Encoding (WePE), a mathematically grounded method for encoding two-dimensional coordinates in the complex domain. WePE maps normalized 2D patch coordinates onto the complex plane and constructs compact four-dimensional positional features using the Weierstrass elliptic function and its derivative. The double periodicity provides a principled representation of 2D positions, and its intrinsic lattice structure naturally matches the regular geometry of image patch grids. Its nonlinear geometric properties help model spatial distance relationships more faithfully, while the algebraic addition formula enables relative positional information between arbitrary patch pairs to be derived directly from their absolute encodings. WePE is plug-and-play and resolution-agnostic, allowing seamless integration into existing ViTs. Extensive experiments show that WePE brings consistent performance gains in most settings. With precomputed lookup tables, these improvements introduce no noticeable computational or memory overhead. Additional analyses and ablation studies further validate the effectiveness of the proposed method.
- Abstract(参考訳): 視覚変換器はコンピュータビジョンにおいて顕著な成功を収めてきたが、学習可能な1次元位置符号化の共通利用は、パッチフラット化後の画像の2次元空間構造を弱める。
既存の位置符号化は幾何学的制約を欠くことが多く、ユークリッド空間距離とシーケンシャルインデックス距離の間の単調な関係を保たず、VTが空間的近接事前を利用する能力を制限する。
Weierstrass elliptic Positional Encoding (WePE, Weierstrass elliptic Positional Encoding)を提案する。
WePE は正規化された2次元パッチ座標を複素平面に写像し、ワイエルシュトラスの楕円関数とその微分を用いてコンパクトな4次元位置特徴を構成する。
二重周期性は2次元位置の原理的表現を提供し、その内在格子構造は自然な画像パッチ格子の正規幾何学と一致する。
その非線形幾何学的性質は空間距離関係をより忠実にモデル化し、代数的加算公式は任意のパッチペア間の相対的な位置情報をそれらの絶対エンコーディングから直接引き出すことを可能にする。
WePEはプラグアンドプレイであり、解像度に依存しないため、既存のViTとシームレスに統合できる。
大規模な実験では、ほとんどの設定で、WePEが一貫したパフォーマンス向上をもたらすことが示されている。
事前計算されたルックアップテーブルでは、これらの改善は顕著な計算やメモリオーバーヘッドを導入しない。
さらなる分析およびアブレーション研究により,提案手法の有効性がさらに検証された。
関連論文リスト
- URoPE: Universal Relative Position Embedding across Geometric Spaces [55.651792747815854]
URoPEは回転位置埋め込み(Rotary Position Embedding, RoPE)の普遍的な拡張である。
キー/値の画像パッチごとに、URoPEは事前に定義された奥行きアンカーで対応するカメラ線に沿って3Dポイントをサンプリングする。
標準2D RoPEは、投影されたピクセル座標を用いて適用することができる。
論文 参考訳(メタデータ) (2026-04-20T18:52:03Z) - INST-Align: Implicit Neural Alignment for Spatial Transcriptomics via Canonical Expression Fields [1.0487944945684993]
INST-Alignは、座標ベースの変形ネットワークと共有カノニカル表現場を結合する。
最先端の平均OT精度(0.702)、NN精度(0.719)、チャンファー距離(94.9%)を実現している。
また、生物学的に意味のある空間埋め込みとコヒーレントな3D組織再構築をもたらす。
論文 参考訳(メタデータ) (2026-04-13T21:44:18Z) - GeoPE:A Unified Geometric Positional Embedding for Structured Tensors [12.459742491179947]
四元数を用いて回転を3次元ユークリッド空間に拡張するGeoPE(Geometric Positional Embedding)を導入する。
非可換性を克服し対称性を確保するため、GeoPEはリー代数の幾何平均を計算することによって統一回転作用素を構成する。
画像分類、オブジェクト検出、および3Dセマンティックセグメンテーションの実験は、GeoPEが既存の2D RoPEの派生よりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2025-12-04T16:31:12Z) - Beyond flattening: a geometrically principled positional encoding for vision transformers with Weierstrass elliptic functions [2.8199098530835127]
視覚変換器はコンピュータビジョンタスクにおいて顕著な成功を収めた。
伝統的な位置符号化アプローチはユークリッド空間距離とシーケンシャルインデックス距離との間の単調な対応を確立するのに失敗する。
WEF-PE(英語版)は、自然複素領域表現による埋め込み2次元座標を直接扱う数学的原理のアプローチである。
論文 参考訳(メタデータ) (2025-08-26T16:14:59Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - Neural Isometries: Taming Transformations for Equivariant ML [8.203292895010748]
本稿では,観測空間を汎用潜在空間にマップする方法を学習する自動エンコーダフレームワークであるNeural Isometriesを紹介する。
トレーニング済みの潜伏空間で動作する単純なオフ・ザ・シェルフ同変ネットワークは、巧妙に設計された手作りのネットワークと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:24:25Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。