論文の概要: LOOPE: Learnable Optimal Patch Order in Positional Embeddings for Vision Transformers
- arxiv url: http://arxiv.org/abs/2504.14386v1
- Date: Sat, 19 Apr 2025 19:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:57:11.508104
- Title: LOOPE: Learnable Optimal Patch Order in Positional Embeddings for Vision Transformers
- Title(参考訳): LOOPE:視覚変換器の位置埋め込みにおける学習可能な最適パッチ順序
- Authors: Md Abtahi Majeed Chowdhury, Md Rifat Ur Rahman, Akil Ahmad Taki,
- Abstract要約: 位置埋め込みは視覚変換器(ViT)において重要な役割を担っている。
既存の手法は、主に位置埋め込みにおけるパッチ順序の影響を見落としているか、調査したことがない。
与えられた周波数集合に対する空間表現を最適化する学習可能なパッチ順序付け法である LOOPE を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Positional embeddings (PE) play a crucial role in Vision Transformers (ViTs) by providing spatial information otherwise lost due to the permutation invariant nature of self attention. While absolute positional embeddings (APE) have shown theoretical advantages over relative positional embeddings (RPE), particularly due to the ability of sinusoidal functions to preserve spatial inductive biases like monotonicity and shift invariance, a fundamental challenge arises when mapping a 2D grid to a 1D sequence. Existing methods have mostly overlooked or never explored the impact of patch ordering in positional embeddings. To address this, we propose LOOPE, a learnable patch-ordering method that optimizes spatial representation for a given set of frequencies, providing a principled approach to patch order optimization. Empirical results show that our PE significantly improves classification accuracy across various ViT architectures. To rigorously evaluate the effectiveness of positional embeddings, we introduce the "Three Cell Experiment", a novel benchmarking framework that assesses the ability of PEs to retain relative and absolute positional information across different ViT architectures. Unlike standard evaluations, which typically report a performance gap of 4 to 6% between models with and without PE, our method reveals a striking 30 to 35% difference, offering a more sensitive diagnostic tool to measure the efficacy of PEs. Our experimental analysis confirms that the proposed LOOPE demonstrates enhanced effectiveness in retaining both relative and absolute positional information.
- Abstract(参考訳): 位置埋め込み (PE) は視覚変換器 (ViT) において重要な役割を担っている。
絶対的な位置埋め込み (APE) は相対的な位置埋め込み (RPE) よりも理論的に有利であるが、特に正弦波関数が単調性やシフト不変性のような空間帰納バイアスを保っているため、基本的な課題は2Dグリッドを1Dシーケンスにマッピングする際に生じる。
既存の手法は、主に位置埋め込みにおけるパッチ順序の影響を見落としているか、調査したことがない。
そこで我々は,与えられた周波数の空間表現を最適化する学習可能なパッチ順序付け手法 LOOPE を提案する。
実験の結果,PEは様々なViTアーキテクチャの分類精度を著しく向上させることがわかった。
位置埋め込みの有効性を厳格に評価するために,異なるViTアーキテクチャ間の相対的および絶対的な位置情報を保持するPEの能力を評価する新しいベンチマークフレームワークである"Three Cell Experiment"を導入する。
通常,PEと非PEのモデル間の性能差が4~6%である標準評価とは異なり,本手法では30~35%の差がみられ,PEの有効性を測定するためのより感度の高い診断ツールが提供される。
実験により,LOOPEは相対的位置情報と絶対的位置情報の両方を保持する効果が向上していることが確認された。
関連論文リスト
- A Lightweight 3D Anomaly Detection Method with Rotationally Invariant Features [60.76577388438418]
3D異常検出(AD)は、ポイントクラウドデータから異常点や領域を特定することを目的として、コンピュータビジョンにおいて重要なタスクである。
既存の手法は、方向と位置の変化を伴う点雲を扱う場合、結果として得られる特徴が著しく異なるため、課題に遭遇する可能性がある。
本稿では、3次元ADのための新しい回転不変特徴量(RIF)フレームワークを提案し、各点を回転不変空間にマッピングして表現の整合性を維持する。
論文 参考訳(メタデータ) (2025-11-17T08:16:05Z) - Through the Lens of Doubt: Robust and Efficient Uncertainty Estimation for Visual Place Recognition [11.33609434801822]
視覚的場所認識は、既知の場所のデータベースに対する現在の観測と一致させることで、これまで訪れた場所を特定できる。
同時ローカライゼーションとマッピングパイプラインにおけるループクロージャ検出などの障害クリティカルなVPRアプリケーションは、位置マッチングの不確実性を堅牢に評価する必要がある。
本稿では,既存のVPR法を用いて,類似度スコアの固有統計パターンを解析し,予測信頼度を推定する3つのトレーニング不要不確実性指標を提案する。
論文 参考訳(メタデータ) (2025-10-15T12:12:55Z) - BEVUDA++: Geometric-aware Unsupervised Domain Adaptation for Multi-View 3D Object Detection [56.477525075806966]
視覚中心のBird's Eye View (BEV) の認識は、自律運転にかなりの可能性を秘めている。
近年の研究では、効率性や精度の向上が優先されているが、ドメインシフトの問題は見過ごされている。
本稿では,この問題を解消するために,革新的な幾何学的学習支援フレームワークであるBEVUDA++を紹介する。
論文 参考訳(メタデータ) (2025-09-17T16:31:40Z) - Beyond flattening: a geometrically principled positional encoding for vision transformers with Weierstrass elliptic functions [2.8199098530835127]
視覚変換器はコンピュータビジョンタスクにおいて顕著な成功を収めた。
伝統的な位置符号化アプローチはユークリッド空間距離とシーケンシャルインデックス距離との間の単調な対応を確立するのに失敗する。
WEF-PE(英語版)は、自然複素領域表現による埋め込み2次元座標を直接扱う数学的原理のアプローチである。
論文 参考訳(メタデータ) (2025-08-26T16:14:59Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - Unpacking Positional Encoding in Transformers: A Spectral Analysis of Content-Position Coupling [10.931433906211534]
ポジショナルエンコーディング(PE)は、トランスフォーマーがシーケンシャルな構造をモデル化できるようにするために不可欠である。
本稿では,Toeplitzと関連する行列のスペクトル特性からPEを解析する統一フレームワークを提案する。
我々は, PE設計の鍵となる原理として, 相対配置Toeplitz信号を用いた明示的コンテンツ相対混合を確立する。
論文 参考訳(メタデータ) (2025-05-19T12:11:13Z) - Toward Relative Positional Encoding in Spiking Transformers [52.62008099390541]
スパイキングニューラルネットワーク(スパイキングニューラルネット、英: Spiking Neural Network、SNN)は、脳内のニューロンが離散スパイクを通してどのように通信するかをモデル化するバイオインスパイアネットワークである。
本稿では,スパイキング変換器における相対位置符号化(RPE)の近似手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T06:42:37Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。
私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T16:06:59Z) - TraIL-Det: Transformation-Invariant Local Feature Networks for 3D LiDAR Object Detection with Unsupervised Pre-Training [21.56675189346088]
本稿では変換不変ローカル(TraIL)機能と関連するTraIL-Detアーキテクチャを紹介する。
TraILの特徴は、厳密な変換不変性を示し、点密度の変動に効果的に適応する。
彼らはLiDARの固有の等方性放射を利用して局所的な表現を強化する。
提案手法は,KITTI上のmAPを用いて,現代自己監督型3次元物体検出手法より優れている。
論文 参考訳(メタデータ) (2024-08-25T17:59:17Z) - Progress and Perspectives on Weak-value Amplification [9.675150350961202]
WVA(Weak-value Amplification)は、超小さな物理効果を効果的に増幅する気象プロトコルである。
WVAは、精密気象学におけるポストセレクションの重要な役割を認識するための新しい視点を提供する。
論文 参考訳(メタデータ) (2024-07-14T05:26:53Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Parameter-Efficient Transformer with Hybrid Axial-Attention for Medical
Image Segmentation [10.441315305453504]
医用画像セグメンテーションのための位置情報を用いた本質的帰納バイアスを探索するパラメータ効率変換器を提案する。
そこで本研究では,空間画素情報と相対位置情報を帰納バイアスとして利用できるハイブリッド軸アテンション(HAA)を提案する。
論文 参考訳(メタデータ) (2022-11-17T13:54:55Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。