論文の概要: CodedVTR: Codebook-based Sparse Voxel Transformer with Geometric
Guidance
- arxiv url: http://arxiv.org/abs/2203.09887v1
- Date: Fri, 18 Mar 2022 11:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 21:00:44.999960
- Title: CodedVTR: Codebook-based Sparse Voxel Transformer with Geometric
Guidance
- Title(参考訳): codedvtr: 幾何学的ガイダンスを備えたコードブックベースのスパースボクセルトランスフォーマー
- Authors: Tianchen Zhao, Niansong Zhang, Xuefei Ning, He Wang, Li Yi, Yu Wang
- Abstract要約: 本稿では,3次元スパースボクセルトランスのためのCodedVTR(Codebook-based Voxel TRansformer)を提案する。
一方、学習可能なコードブックにおける「プロトタイプ」の組み合わせで表されるサブ空間に注意空間を投影するコードブックベースの注意を提案する。
一方,幾何学的情報(幾何学的パターン,密度)を用いて注意学習を誘導する幾何学的自己注意を提案する。
- 参考スコア(独自算出の注目度): 22.39628991021092
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers have gained much attention by outperforming convolutional neural
networks in many 2D vision tasks. However, they are known to have
generalization problems and rely on massive-scale pre-training and
sophisticated training techniques. When applying to 3D tasks, the irregular
data structure and limited data scale add to the difficulty of transformer's
application. We propose CodedVTR (Codebook-based Voxel TRansformer), which
improves data efficiency and generalization ability for 3D sparse voxel
transformers. On the one hand, we propose the codebook-based attention that
projects an attention space into its subspace represented by the combination of
"prototypes" in a learnable codebook. It regularizes attention learning and
improves generalization. On the other hand, we propose geometry-aware
self-attention that utilizes geometric information (geometric pattern, density)
to guide attention learning. CodedVTR could be embedded into existing sparse
convolution-based methods, and bring consistent performance improvements for
indoor and outdoor 3D semantic segmentation tasks
- Abstract(参考訳): トランスフォーマーは多くの2次元視覚タスクで畳み込みニューラルネットワークを上回ることで多くの注目を集めている。
しかし、それらは一般化の問題で知られており、大規模な事前訓練と高度な訓練技術に依存している。
3Dタスクに適用する場合、不規則なデータ構造と限られたデータスケールは、トランスフォーマーの応用が困難になる。
我々は,3次元スパースボクセル変換器のデータ効率と一般化能力を向上させるCodedVTR(Codebook-based Voxel TRansformer)を提案する。
本稿では,学習可能なコードブックにおける「プロトタイプ」の組み合わせで表される部分空間に注意空間を投影するコードブックベースの注意力を提案する。
注意学習を規則化し、一般化を改善する。
一方,幾何学的情報(幾何学的パターン,密度)を用いて注意学習を支援する幾何学的自己注意を提案する。
CodedVTRは既存のスパース畳み込み方式に組み込むことができ、屋内および屋外の3次元セマンティックセグメンテーションタスクに一貫した性能改善をもたらす
関連論文リスト
- Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - Dual Octree Graph Networks for Learning Adaptive Volumetric Shape
Representations [21.59311861556396]
本手法は,3次元形状の体積場を,オクツリーによって構成された適応的特徴量で符号化する。
エンコーダ・デコーダネットワークは、オクツリーノードの二重グラフ上のグラフ畳み込みに基づいて、適応的な特徴量を学ぶように設計されている。
提案手法は, 形状詳細を効果的に符号化し, 高速な3次元形状復元を可能にし, 訓練カテゴリから3次元形状をモデル化するための優れた汎用性を示す。
論文 参考訳(メタデータ) (2022-05-05T17:56:34Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - PatchFormer: A Versatile 3D Transformer Based on Patch Attention [0.358439716487063]
我々は、アテンションマップが計算されるより小さなベースセットを適応的に学習するためにパッチアテンションを導入する。
これらの基底に対する重み付けの和により、パッチアテンションはグローバルな形状のコンテキストをキャプチャするだけでなく、入力サイズに対する線形複雑度も達成する。
我々のネットワークは,従来の3Dトランスよりも7.3倍のスピードアップで,一般的な3D認識タスクにおいて高い精度を実現している。
論文 参考訳(メタデータ) (2021-10-30T08:39:55Z) - The Neural Data Router: Adaptive Control Flow in Transformers Improves
Systematic Generalization [8.424405898986118]
本稿では,トランスフォーマーアーキテクチャ,コピーゲート,幾何学的アテンションの2つの改良を提案する。
我々の新しいニューラル・データ・ルータ(NDR)は、古典的な構成表検索タスクにおいて、100%長の一般化精度を実現する。
NDRの注意とゲーティングパターンは直感的な神経ルーティングとして解釈される傾向がある。
論文 参考訳(メタデータ) (2021-10-14T21:24:27Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Gram Regularization for Multi-view 3D Shape Retrieval [3.655021726150368]
本稿では,グラム正規化という新しい正規化用語を提案する。
重みカーネル間の分散を強要することにより、正規化器は識別的特徴を抽出するのに役立つ。
提案したグラム正規化はデータ独立であり、ベルやホイッスルを使わずに安定かつ迅速に収束することができる。
論文 参考訳(メタデータ) (2020-11-16T05:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。