論文の概要: URoPE: Universal Relative Position Embedding across Geometric Spaces
- arxiv url: http://arxiv.org/abs/2604.18747v1
- Date: Mon, 20 Apr 2026 18:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.435268
- Title: URoPE: Universal Relative Position Embedding across Geometric Spaces
- Title(参考訳): URoPE: 幾何学的空間に埋め込まれた普遍的相対的位置
- Authors: Yichen Xie, Depu Meng, Chensheng Peng, Yihan Hu, Quentin Herau, Masayoshi Tomizuka, Wei Zhan,
- Abstract要約: URoPEは回転位置埋め込み(Rotary Position Embedding, RoPE)の普遍的な拡張である。
キー/値の画像パッチごとに、URoPEは事前に定義された奥行きアンカーで対応するカメラ線に沿って3Dポイントをサンプリングする。
標準2D RoPEは、投影されたピクセル座標を用いて適用することができる。
- 参考スコア(独自算出の注目度): 55.651792747815854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relative position embedding has become a standard mechanism for encoding positional information in Transformers. However, existing formulations are typically limited to a fixed geometric space, namely 1D sequences or regular 2D/3D grids, which restricts their applicability to many computer vision tasks that require geometric reasoning across camera views or between 2D and 3D spaces. To address this limitation, we propose URoPE, a universal extension of Rotary Position Embedding (RoPE) to cross-view or cross-dimensional geometric spaces. For each key/value image patch, URoPE samples 3D points along the corresponding camera ray at predefined depth anchors and projects them into the query image plane. Standard 2D RoPE can then be applied using the projected pixel coordinates. URoPE is a parameter-free and intrinsics-aware relative position embedding that is invariant to the choice of global coordinate systems, while remaining fully compatible with existing RoPE-optimized attention kernels. We evaluate URoPE as a plug-in positional encoding for transformer architectures across a diverse set of tasks, including novel view synthesis, 3D object detection, object tracking, and depth estimation, covering 2D-2D, 2D-3D, and temporal scenarios. Experiments show that URoPE consistently improves the performance of transformer-based models across all tasks, demonstrating its effectiveness and generality for geometric reasoning. Our project website is: https://urope-pe.github.io/.
- Abstract(参考訳): 相対的な位置埋め込みは、トランスフォーマーにおける位置情報を符号化する標準的なメカニズムとなっている。
しかし、既存の定式化は1Dシーケンスや通常の2D/3Dグリッドのような固定された幾何学的空間に限られており、カメラビューや2Dおよび3D空間間の幾何学的推論を必要とする多くのコンピュータビジョンタスクに適用性を制限する。
この制限に対処するため,ロータリー位置埋め込み(RoPE)をクロスビューあるいはクロス次元幾何学空間に拡張したURoPEを提案する。
キー/値の画像パッチ毎に、URoPEは事前に定義された深さアンカーで対応するカメラ線に沿って3Dポイントをサンプリングし、クエリ画像プレーンに投影する。
標準2D RoPEは、投影されたピクセル座標を用いて適用することができる。
URoPEはパラメータフリーで固有の相対的な位置埋め込みであり、グローバル座標系の選択に不変であるが、既存のRoPE最適化アテンションカーネルと完全互換である。
URoPEは、2D-2D、2D-3D、2D-3D、2D-3D、時間的シナリオをカバーし、新しいビュー合成、3Dオブジェクト検出、オブジェクト追跡、深さ推定を含む様々なタスクからなるトランスフォーマーアーキテクチャのプラグイン位置符号化として評価する。
実験により、URoPEは全てのタスクにわたってトランスフォーマーモデルの性能を一貫して改善し、幾何学的推論の有効性と一般化を実証した。
プロジェクトのWebサイトは: https://urope-pe.github.io/.com/です。
関連論文リスト
- GeoPE:A Unified Geometric Positional Embedding for Structured Tensors [12.459742491179947]
四元数を用いて回転を3次元ユークリッド空間に拡張するGeoPE(Geometric Positional Embedding)を導入する。
非可換性を克服し対称性を確保するため、GeoPEはリー代数の幾何平均を計算することによって統一回転作用素を構成する。
画像分類、オブジェクト検出、および3Dセマンティックセグメンテーションの実験は、GeoPEが既存の2D RoPEの派生よりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2025-12-04T16:31:12Z) - FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers [91.59069344768858]
周波数対応位置深度埋め込み (FreqPDE) を導入し, 空間情報と2次元画像特徴を付加して3次元検出変換器デコーダを提案する。
FreqPDEは2D画像特徴と3D位置埋め込みを組み合わせることで、クエリデコーディングのための3D深度認識機能を生成する。
論文 参考訳(メタデータ) (2025-10-17T07:36:54Z) - WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting [51.69408870574092]
汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-12T17:59:09Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。