論文の概要: RayRoPE: Projective Ray Positional Encoding for Multi-view Attention
- arxiv url: http://arxiv.org/abs/2601.15275v1
- Date: Wed, 21 Jan 2026 18:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.503453
- Title: RayRoPE: Projective Ray Positional Encoding for Multi-view Attention
- Title(参考訳): RayRoPE:マルチビューアテンションのためのプロジェクティブレイポジショナルエンコーディング
- Authors: Yu Wu, Minsik Jeon, Jen-Hao Rick Chang, Oncel Tuzel, Shubham Tulsiani,
- Abstract要約: 入力画像の集合からトークンを処理する多視点変換器の位置符号化について検討する。
我々は、パッチを一意に符号化し、SE(3)不変の注意を多周波数類似性で許容し、基礎となるシーンの幾何学に適応できるメカニズムを模索する。
RayRoPEは、関連する光線に基づいてパッチ位置を表すが、幾何認識符号化のための方向ではなく、線に沿って予測された点を利用する。
- 参考スコア(独自算出の注目度): 46.94549341989407
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study positional encodings for multi-view transformers that process tokens from a set of posed input images, and seek a mechanism that encodes patches uniquely, allows SE(3)-invariant attention with multi-frequency similarity, and can be adaptive to the geometry of the underlying scene. We find that prior (absolute or relative) encoding schemes for multi-view attention do not meet the above desiderata, and present RayRoPE to address this gap. RayRoPE represents patch positions based on associated rays but leverages a predicted point along the ray instead of the direction for a geometry-aware encoding. To achieve SE(3) invariance, RayRoPE computes query-frame projective coordinates for computing multi-frequency similarity. Lastly, as the 'predicted' 3D point along a ray may not be precise, RayRoPE presents a mechanism to analytically compute the expected position encoding under uncertainty. We validate RayRoPE on the tasks of novel-view synthesis and stereo depth estimation and show that it consistently improves over alternate position encoding schemes (e.g. 15% relative improvement on LPIPS in CO3D). We also show that RayRoPE can seamlessly incorporate RGB-D input, resulting in even larger gains over alternatives that cannot positionally encode this information.
- Abstract(参考訳): 入力画像の集合からトークンを処理する多視点トランスフォーマーの位置符号化について検討し、パッチを一意に符号化し、SE(3)不変の注意を多周波数類似性で許容し、基礎となるシーンの幾何学に適応できるメカニズムを求める。
多視点アテンションのための事前(絶対的あるいは相対的)符号化スキームが上記のデシダラタを満たさないことを発見し、このギャップに対処するためにRayRoPEを提示する。
RayRoPEは、関連する光線に基づいてパッチ位置を表すが、幾何認識符号化のための方向ではなく、線に沿って予測された点を利用する。
SE(3)不変性を達成するために、RayRoPEはマルチ周波数類似性を計算するためのクエリフレーム射影座標を計算する。
最後に、レイロピーは光線に沿った「予測された」3Dポイントが正確でないため、不確実性の下で期待位置の符号化を解析的に計算するメカニズムを提示する。
我々は,新規視点合成とステレオ深度推定のタスクにおけるRayRoPEの有効性を検証し,代替位置符号化方式よりも一貫した改善(例えばCO3DにおけるLPIPSの相対的改善)を示す。
また、RayRoPEはRGB-D入力をシームレスに組み込むことができ、その結果、位置情報を符号化できない代替手段よりもさらに大きな利得が得られることを示す。
関連論文リスト
- Leveraging Transformer Decoder for Automotive Radar Object Detection [9.764772760421792]
本稿では,新しいトランスフォーマーデコーダを用いた3次元レーダオブジェクト検出のためのトランスフォーマーベースアーキテクチャを提案する。
Pyramid Token Fusion (PTF)は、特徴ピラミッドを統一されたスケール対応トークンシーケンスに変換する。
我々はRADDet上で提案したフレームワークを評価し、最先端のレーダー専用ベースラインよりも大幅に改善した。
論文 参考訳(メタデータ) (2026-01-19T20:44:24Z) - Cameras as Relative Positional Encoding [37.675563572777136]
マルチビュートランスは3次元空間で視覚トークンを接地するためにカメラジオメトリを使用する必要がある。
フィードフォワード新規ビュー合成における相対カメラコンディショニングによる性能向上効果を示す。
次に、これらの利点が様々なタスク、ステレオ深度推定、識別的認知、およびより大きなモデルサイズに持続していることを検証する。
論文 参考訳(メタデータ) (2025-07-14T17:22:45Z) - PointVDP: Learning View-Dependent Projection by Fireworks Rays for 3D Point Cloud Segmentation [66.00721801098574]
本稿では,ポイントクラウドのセグメンテーションを容易にするために,ビュー依存プロジェクション(VDP)を提案する。
VDPは3Dポイント分布からデータ駆動プロジェクションを生成する。
フレームワークを最適化するために色規則化を構築します。
論文 参考訳(メタデータ) (2025-07-09T07:44:00Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - Ray-Patch: An Efficient Querying for Light Field Transformers [10.859910783551937]
ターゲットビューに暗黙の表現をデコードするトランスフォーマーを効率的にクエリする新しいモデルであるRay-Patchクエリを提案する。
我々のRay-Patchデコーディングは計算フットプリントを減らし、従来のモデルに比べて1桁の推論速度を増大させる。
論文 参考訳(メタデータ) (2023-05-16T16:03:27Z) - 3DPPE: 3D Point Positional Encoding for Multi-Camera 3D Object Detection
Transformers [35.14784758217257]
本稿では,3D検出トランスフォーマーデコーダに3Dポイント位置符号化,3DPPEを導入する。
近似にもかかわらず、3DPPEは競合するnuScenesデータセット上で46.0 mAPと51.4 NDSを達成した。
論文 参考訳(メタデータ) (2022-11-27T03:36:32Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。