論文の概要: LOOPE: Learnable Optimal Patch Order in Positional Embeddings for Vision Transformers
- arxiv url: http://arxiv.org/abs/2504.14386v1
- Date: Sat, 19 Apr 2025 19:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:57:11.508104
- Title: LOOPE: Learnable Optimal Patch Order in Positional Embeddings for Vision Transformers
- Title(参考訳): LOOPE:視覚変換器の位置埋め込みにおける学習可能な最適パッチ順序
- Authors: Md Abtahi Majeed Chowdhury, Md Rifat Ur Rahman, Akil Ahmad Taki,
- Abstract要約: 位置埋め込みは視覚変換器(ViT)において重要な役割を担っている。
既存の手法は、主に位置埋め込みにおけるパッチ順序の影響を見落としているか、調査したことがない。
与えられた周波数集合に対する空間表現を最適化する学習可能なパッチ順序付け法である LOOPE を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Positional embeddings (PE) play a crucial role in Vision Transformers (ViTs) by providing spatial information otherwise lost due to the permutation invariant nature of self attention. While absolute positional embeddings (APE) have shown theoretical advantages over relative positional embeddings (RPE), particularly due to the ability of sinusoidal functions to preserve spatial inductive biases like monotonicity and shift invariance, a fundamental challenge arises when mapping a 2D grid to a 1D sequence. Existing methods have mostly overlooked or never explored the impact of patch ordering in positional embeddings. To address this, we propose LOOPE, a learnable patch-ordering method that optimizes spatial representation for a given set of frequencies, providing a principled approach to patch order optimization. Empirical results show that our PE significantly improves classification accuracy across various ViT architectures. To rigorously evaluate the effectiveness of positional embeddings, we introduce the "Three Cell Experiment", a novel benchmarking framework that assesses the ability of PEs to retain relative and absolute positional information across different ViT architectures. Unlike standard evaluations, which typically report a performance gap of 4 to 6% between models with and without PE, our method reveals a striking 30 to 35% difference, offering a more sensitive diagnostic tool to measure the efficacy of PEs. Our experimental analysis confirms that the proposed LOOPE demonstrates enhanced effectiveness in retaining both relative and absolute positional information.
- Abstract(参考訳): 位置埋め込み (PE) は視覚変換器 (ViT) において重要な役割を担っている。
絶対的な位置埋め込み (APE) は相対的な位置埋め込み (RPE) よりも理論的に有利であるが、特に正弦波関数が単調性やシフト不変性のような空間帰納バイアスを保っているため、基本的な課題は2Dグリッドを1Dシーケンスにマッピングする際に生じる。
既存の手法は、主に位置埋め込みにおけるパッチ順序の影響を見落としているか、調査したことがない。
そこで我々は,与えられた周波数の空間表現を最適化する学習可能なパッチ順序付け手法 LOOPE を提案する。
実験の結果,PEは様々なViTアーキテクチャの分類精度を著しく向上させることがわかった。
位置埋め込みの有効性を厳格に評価するために,異なるViTアーキテクチャ間の相対的および絶対的な位置情報を保持するPEの能力を評価する新しいベンチマークフレームワークである"Three Cell Experiment"を導入する。
通常,PEと非PEのモデル間の性能差が4~6%である標準評価とは異なり,本手法では30~35%の差がみられ,PEの有効性を測定するためのより感度の高い診断ツールが提供される。
実験により,LOOPEは相対的位置情報と絶対的位置情報の両方を保持する効果が向上していることが確認された。
関連論文リスト
- Toward Relative Positional Encoding in Spiking Transformers [52.62008099390541]
スパイキングニューラルネットワーク(スパイキングニューラルネット、英: Spiking Neural Network、SNN)は、脳内のニューロンが離散スパイクを通してどのように通信するかをモデル化するバイオインスパイアネットワークである。
本稿では,スパイキング変換器における相対位置符号化(RPE)の近似手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T06:42:37Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。
私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T16:06:59Z) - TraIL-Det: Transformation-Invariant Local Feature Networks for 3D LiDAR Object Detection with Unsupervised Pre-Training [21.56675189346088]
本稿では変換不変ローカル(TraIL)機能と関連するTraIL-Detアーキテクチャを紹介する。
TraILの特徴は、厳密な変換不変性を示し、点密度の変動に効果的に適応する。
彼らはLiDARの固有の等方性放射を利用して局所的な表現を強化する。
提案手法は,KITTI上のmAPを用いて,現代自己監督型3次元物体検出手法より優れている。
論文 参考訳(メタデータ) (2024-08-25T17:59:17Z) - Progress and Perspectives on Weak-value Amplification [9.675150350961202]
WVA(Weak-value Amplification)は、超小さな物理効果を効果的に増幅する気象プロトコルである。
WVAは、精密気象学におけるポストセレクションの重要な役割を認識するための新しい視点を提供する。
論文 参考訳(メタデータ) (2024-07-14T05:26:53Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Parameter-Efficient Transformer with Hybrid Axial-Attention for Medical
Image Segmentation [10.441315305453504]
医用画像セグメンテーションのための位置情報を用いた本質的帰納バイアスを探索するパラメータ効率変換器を提案する。
そこで本研究では,空間画素情報と相対位置情報を帰納バイアスとして利用できるハイブリッド軸アテンション(HAA)を提案する。
論文 参考訳(メタデータ) (2022-11-17T13:54:55Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。