論文の概要: GeoPE:A Unified Geometric Positional Embedding for Structured Tensors
- arxiv url: http://arxiv.org/abs/2512.04963v1
- Date: Thu, 04 Dec 2025 16:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.272268
- Title: GeoPE:A Unified Geometric Positional Embedding for Structured Tensors
- Title(参考訳): GeoPE:構造的テンソルのための統一幾何学的位置埋め込み
- Authors: Yupu Yao, Bowen Yang,
- Abstract要約: 四元数を用いて回転を3次元ユークリッド空間に拡張するGeoPE(Geometric Positional Embedding)を導入する。
非可換性を克服し対称性を確保するため、GeoPEはリー代数の幾何平均を計算することによって統一回転作用素を構成する。
画像分類、オブジェクト検出、および3Dセマンティックセグメンテーションの実験は、GeoPEが既存の2D RoPEの派生よりも一貫して優れていることを示した。
- 参考スコア(独自算出の注目度): 12.459742491179947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard Vision Transformers flatten 2D images into 1D sequences, disrupting the natural spatial topology. While Rotary Positional Embedding (RoPE) excels in 1D, it inherits this limitation, often treating spatially distant patches (e.g., at row edges) as sequence neighbors. Existing 2D approaches typically treat spatial axes independently, failing to decouple this false sequential proximity from true spatial distance. To restore the 2D spatial manifold, we introduce Geometric Positional Embedding (GeoPE), a framework that extends rotations to 3D Euclidean space using quaternions. To overcome non-commutativity and ensure symmetry, GeoPE constructs a unified rotational operator by computing the geometric mean in the Lie algebra. This creates a geometrically coupled encoding that effectively separates spatial dimensions. Extensive experiments on image classification, object detection, and 3D semantic segmentation demonstrate that GeoPE consistently outperforms existing 2D RoPE variants and significantly enhances shape bias, confirming its ability to capture true geometric structure.
- Abstract(参考訳): 標準ビジョン変換器は2D画像を1Dシーケンスにフラット化し、自然空間トポロジを乱す。
RoPE(Rotary Positional Embedding)は1Dで優れているが、この制限を継承し、しばしば空間的に離れたパッチ(例えば、行の端)をシーケンスの隣人として扱う。
既存の2Dアプローチは通常、空間軸を独立に扱うが、この偽の逐次近接を真の空間距離から切り離すことができない。
2次元空間多様体を復元するために、四元数を用いて回転を3次元ユークリッド空間に拡張するGeoPE(Geometric Positional Embedding)を導入する。
非可換性を克服し対称性を確保するため、GeoPEはリー代数の幾何学的平均を計算することによって統一回転作用素を構成する。
これにより、空間次元を効果的に分離する幾何学的に結合された符号化が生成される。
画像分類、オブジェクト検出、および3Dセマンティックセグメンテーションに関する広範囲な実験により、GeoPEは既存の2D RoPEのバリエーションを一貫して上回り、形状バイアスを大幅に向上させ、真の幾何学的構造を捉える能力を確認している。
関連論文リスト
- SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection [49.12928389918159]
既存の単分子3D検出器は典型的には、切り離された予測パラダイムを通じて、3D境界ボックスの顕著な非線形回帰をテームする。
本稿では2つの主成分を持つ新しい空間射影アライメント(SPAN)を提案する。
SPANは、予測された3次元境界ボックスと接地した3次元境界ボックスの間に明らかに大域的な空間的制約を課し、それによって非結合な特性回帰による空間的ドリフトを補正する。
3D-2Dプロジェクションアライメントは、投影された3Dボックスが、画像平面上の対応する2D検出バウンディングボックス内に密に整列していることを保証する。
論文 参考訳(メタデータ) (2025-11-10T04:48:48Z) - GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation [57.8059956428009]
2次元視覚言語モデルから3次元セマンティックセグメンテーションへ機能を移行しようとする最近の試みは、永続的なトレードオフを露呈している。
3次元教師モデルから抽出した幾何学的事前情報を用いて2次元VLM生成した3次元点特徴に小さな学生親和性ネットワークを適用したGeoPurifyを提案する。
遅延幾何学情報と学習された親和性ネットワークから恩恵を受けることで、GeoPurifyはトレードオフを効果的に軽減し、優れたデータ効率を実現する。
論文 参考訳(メタデータ) (2025-10-02T16:37:56Z) - Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification [59.17489431187807]
本稿では,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークを提案する。
本手法は3次元のクラスインクリメンタル学習を著しく改善し,テクスチャバイアスに対して優れた幾何コヒーレンスとロバスト性を実現する。
論文 参考訳(メタデータ) (2025-09-18T13:45:08Z) - Geo2Vec: Shape- and Distance-Aware Neural Representation of Geospatial Entities [13.206124101350847]
署名された距離場(SDF)にインスパイアされた新しい手法であるGeo2Vecを導入し、元の空間で直接動作する。
SDFを近似するように訓練されたニューラルネットワークは、すべてのジオエンタリティタイプに対してコンパクトで幾何学的、統一された表現を生成する。
実験結果から,Geo2Vecは形状と位置を表す既存の手法より一貫して優れており,トポロジカルおよび距離の関係を捉え,実世界のGeoAIアプリケーションにおいて高い効率を実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-26T07:12:28Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Learning Pose Image Manifolds Using Geometry-Preserving GANs and
Elasticae [13.202747831999414]
Geometric Style-GAN (Geom-SGAN) は画像を低次元の潜在表現にマッピングする。
オイラーの弾性体は、低次元ラテント空間における有向点(点 + 接方向)の間を滑らかに補間する。
論文 参考訳(メタデータ) (2023-05-17T18:45:56Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。