論文の概要: Cameras as Relative Positional Encoding
- arxiv url: http://arxiv.org/abs/2507.10496v1
- Date: Mon, 14 Jul 2025 17:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.574062
- Title: Cameras as Relative Positional Encoding
- Title(参考訳): 相対的位置エンコーディングとしてのカメラ
- Authors: Ruilong Li, Brent Yi, Junchen Liu, Hang Gao, Yi Ma, Angjoo Kanazawa,
- Abstract要約: マルチビュートランスは3次元空間で視覚トークンを接地するためにカメラジオメトリを使用する必要がある。
フィードフォワード新規ビュー合成における相対カメラコンディショニングによる性能向上効果を示す。
次に、これらの利点が様々なタスク、ステレオ深度推定、識別的認知、およびより大きなモデルサイズに持続していることを検証する。
- 参考スコア(独自算出の注目度): 37.675563572777136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are increasingly prevalent for multi-view computer vision tasks, where geometric relationships between viewpoints are critical for 3D perception. To leverage these relationships, multi-view transformers must use camera geometry to ground visual tokens in 3D space. In this work, we compare techniques for conditioning transformers on cameras: token-level raymap encodings, attention-level relative pose encodings, and a new relative encoding we propose -- Projective Positional Encoding (PRoPE) -- that captures complete camera frustums, both intrinsics and extrinsics, as a relative positional encoding. Our experiments begin by showing how relative camera conditioning improves performance in feedforward novel view synthesis, with further gains from PRoPE. This holds across settings: scenes with both shared and varying intrinsics, when combining token- and attention-level conditioning, and for generalization to inputs with out-of-distribution sequence lengths and camera intrinsics. We then verify that these benefits persist for different tasks, stereo depth estimation and discriminative spatial cognition, as well as larger model sizes.
- Abstract(参考訳): マルチビューコンピュータビジョンタスクでは、視点間の幾何学的関係が3D知覚にとって重要であるため、トランスフォーマーがますます普及している。
これらの関係を活用するために、マルチビュートランスフォーマーは3次元空間で視覚トークンを接地するためにカメラジオメトリを使用する必要がある。
本研究では、トークンレベルのレイマップエンコーディング、アテンションレベルの相対ポーズエンコーディング、およびプロジェクティブ位置エンコーディング(PRoPE)を提案する新しい相対エンコーディングなど、カメラ上のトランスフォーマーの条件付け技術を比較する。
提案実験は,PRoPEによりさらに向上したフィードフォワード新規ビュー合成における,相対カメラコンディショニングによる性能向上を示すことから始まる。
これは、共有と多様な内在性を持つシーン、トークンレベルと注目レベルの条件を組み合わせる場合、およびアウト・オブ・ディストリビューションシーケンス長とカメラ内在性を持つ入力への一般化である。
次に、これらの利点が様々なタスク、ステレオ深度推定、識別的空間認知、およびより大きなモデルサイズに持続していることを検証する。
関連論文リスト
- A 2D Semantic-Aware Position Encoding for Vision Transformers [32.86183384267028]
ビジョントランスフォーマーは、コンピュータビジョンタスクにおいて、長距離依存と自己注意を通してコンテキスト関係をキャプチャする能力により、大きな利点を示してきた。
既存の位置符号化技術は、主に自然言語処理から借用されているが、画像パッチ間のセマンティック・アウェアな位置関係を効果的に捉えられなかった。
絶対位置符号化(英語版)や相対位置符号化(英語版)のような伝統的なアプローチは、主に1次元線形位置関係(しばしば遠方でも文脈的に関連付けられたパッチ間の意味的類似性)に焦点を当てている。
論文 参考訳(メタデータ) (2025-05-14T15:17:34Z) - VicaSplat: A Single Run is All You Need for 3D Gaussian Splatting and Camera Estimation from Unposed Video Frames [8.746291192336056]
本稿では,3次元ガウス復元とカメラポーズ推定のための新しいフレームワークであるVicaSplatを提案する。
我々の手法のコアは、トランスフォーマーベースの新しいネットワークアーキテクチャにある。
論文 参考訳(メタデータ) (2025-03-13T11:56:05Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - EpipolarNVS: leveraging on Epipolar geometry for single-image Novel View
Synthesis [6.103988053817792]
新規ビュー合成(NVS)は、一般的な設定によって異なるアプローチで取り組むことができる。
最も難しいシナリオは、私たちがこの仕事で立っているもので、別の視点から新しいものを生成するためのユニークなソースイメージのみを考えます。
本稿では2次元特徴像として視点変換を符号化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T09:54:20Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。