論文の概要: GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers
- arxiv url: http://arxiv.org/abs/2310.10375v3
- Date: Fri, 7 Jun 2024 12:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 20:56:18.013756
- Title: GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers
- Title(参考訳): GTA:多視点変圧器の幾何学的注意機構
- Authors: Takeru Miyato, Bernhard Jaeger, Max Welling, Andreas Geiger,
- Abstract要約: 既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
- 参考スコア(独自算出の注目度): 63.41460219156508
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: As transformers are equivariant to the permutation of input tokens, encoding the positional information of tokens is necessary for many tasks. However, since existing positional encoding schemes have been initially designed for NLP tasks, their suitability for vision tasks, which typically exhibit different structural properties in their data, is questionable. We argue that existing positional encoding schemes are suboptimal for 3D vision tasks, as they do not respect their underlying 3D geometric structure. Based on this hypothesis, we propose a geometry-aware attention mechanism that encodes the geometric structure of tokens as relative transformation determined by the geometric relationship between queries and key-value pairs. By evaluating on multiple novel view synthesis (NVS) datasets in the sparse wide-baseline multi-view setting, we show that our attention, called Geometric Transform Attention (GTA), improves learning efficiency and performance of state-of-the-art transformer-based NVS models without any additional learned parameters and only minor computational overhead.
- Abstract(参考訳): 変換器は入力トークンの置換に等しく、多くのタスクにはトークンの位置情報を符号化する必要がある。
しかしながら、既存の位置符号化方式は、当初、NLPタスク用に設計されていたため、一般的にデータに異なる構造特性を示す視覚タスクに適していることは疑問視される。
既存の位置符号化方式は、基礎となる3次元幾何学的構造を尊重しないため、3次元視覚課題に最適である。
この仮説に基づいて,クエリとキー-値ペア間の幾何学的関係から決定される相対変換としてトークンの幾何学的構造を符号化する幾何学的注意機構を提案する。
広視野多視点設定における複数新しいビュー合成(NVS)データセットの評価により,幾何学変換注意(Geometric Transform Attention, GTA)と呼ばれる,新たな学習パラメータや計算オーバーヘッドを伴わずに,最先端のトランスフォーマーベースNVSモデルの学習効率と性能の向上が示された。
関連論文リスト
- A Recipe for Geometry-Aware 3D Mesh Transformers [2.0992612407358293]
本研究では, ノード数可変のパッチを収容するパッチレベルで, 特徴を埋め込む手法について検討する。
本研究は,1)一般的な3次元メッシュトランスフォーマにおける熱拡散による構造的および位置的埋め込みの重要性,2)学習の強化における測地的マスキングや機能的相互作用といった新しい要素の有効性,3)セグメント化と分類作業の課題における提案手法の優れた性能と効率性など,重要な知見を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-31T19:13:31Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - B-cos Alignment for Inherently Interpretable CNNs and Vision
Transformers [97.75725574963197]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
このような変換の列は、完全なモデル計算を忠実に要約する単一の線形変換を誘導することを示す。
得られた説明は視覚的品質が高く,定量的解釈可能性指標下では良好に機能することを示す。
論文 参考訳(メタデータ) (2023-06-19T12:54:28Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Geometry-biased Transformers for Novel View Synthesis [36.11342728319563]
入力画像と関連するカメラ視点が与えられたオブジェクトの新規ビューを合成するタスクに取り組む。
我々の研究は、マルチビュー画像を(グローバル)セットラテント表現としてエンコードする最近の「幾何学自由」アプローチにインスパイアされている。
本稿では, 幾何学的帰納バイアスをセットレイト表現に基づく推論に組み込んだ「幾何学バイアス変換器」(GBT)を提案する。
論文 参考訳(メタデータ) (2023-01-11T18:59:56Z) - Depth Field Networks for Generalizable Multi-view Scene Representation [31.090289865520475]
我々は、ビューの多様性を高めるために、幾何学的帰納法として、一連の3次元データ拡張手法を導入し、暗黙的に多視点一貫したシーン表現を学習する。
我々のDeFiNe(Depth Field Networks)は、明示的な幾何学的制約を伴わずにステレオとビデオの深さを推定し、広いマージンでゼロショット領域の一般化を改善する。
論文 参考訳(メタデータ) (2022-07-28T17:59:31Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。