論文の概要: Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas
- arxiv url: http://arxiv.org/abs/2602.01418v1
- Date: Sun, 01 Feb 2026 19:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.77384
- Title: Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas
- Title(参考訳): 視線中心位置をパラボラで符号化する原理
- Authors: Christoffer Koo Øhrstrøm, Rafael I. Cabral Muchacho, Yifei Dong, Filippos Moumtzidellis, Ronja Güldenring, Florian T. Pokorny, Lazaros Nalpantidis,
- Abstract要約: 本稿では,注目アーキテクチャにおける視覚変調のためのパラボラに基づく位置符号化手法であるパラボラ位置法を提案する。
PaPEとPaPE-RIは8つのデータセットのうち7つで最高のパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 10.805953214146166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.
- Abstract(参考訳): 本稿では,注目アーキテクチャにおける視覚変調のためのパラボラに基づく位置符号化であるパラボラ位置符号化(PaPE)を提案する。
画像、点雲、ビデオ、イベントカメラストリームなど、視覚トークンのセットが与えられた場合、視覚モダリティの特性を考慮しつつ、その位置を符号化する。
以前の作品では、言語における1Dシーケンスから視覚におけるnD構造まで、主に位置エンコーディングが拡張されていたが、視覚特性の部分的な説明しかなかった。
このギャップは, 翻訳不変性, 回転不変性(PaPE-RI), 距離減衰, 方向性, 文脈認識など, 先行研究から抽出した原理からPaPEを設計することによって解決される。
4つのモードにまたがる8つのデータセット上でPaPEを評価する。
PaPEとPaPE-RIは8つのデータセットのうち7つで最高のパフォーマンスを達成しています。
ImageNet-1Kにおける外挿実験では、PaPEは極めてよく外挿され、次の最良位置エンコーディングよりも10.5%も絶対的に改善されている。
コードはhttps://github.com/DTU-PAS/parabolic-position-encodingで入手できる。
関連論文リスト
- Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models [49.122200327049676]
ロータリー位置埋め込み(RoPE)は,大規模言語モデルにおいて相対位置情報を符号化する手法として広く採用されている。
視覚言語モデル(VLM)に拡張されると、RoPEとその変種はテキストと画像トークンの間で相対的な位置依存を強制する。
本稿では,スパイラルなクロスモーダルバイアスを除去する新しい符号化方式であるCircle-RoPEを紹介する。
論文 参考訳(メタデータ) (2025-05-22T09:05:01Z) - Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding [64.29499221878746]
視覚言語モデル(VLM)は、汎用人工知能の進歩において顕著な能力を示している。
PyPEは、VLM内の視覚トークンの知覚を高めるために設計された新しいアプローチである。
本手法は,相互関連視覚要素と命令トークンとの相対的距離を減少させる。
論文 参考訳(メタデータ) (2025-01-19T07:00:46Z) - EVP: Enhanced Visual Perception using Inverse Multi-Attentive Feature
Refinement and Regularized Image-Text Alignment [40.328294121805456]
この研究は、コンピュータビジョンタスクにStable Diffusionネットワークを使用する方法を舗装した以前のVPDに基づいている。
Inverse Multi-Attentive Feature Refinement (IMAFR) モジュールを開発した。
第2に、安定拡散バックボーンの特徴抽出を改善するための新しい画像テキストアライメントモジュールを提案する。
論文 参考訳(メタデータ) (2023-12-13T22:20:45Z) - PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.7922200135147]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。
対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。
提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文 参考訳(メタデータ) (2021-11-24T18:59:58Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。