論文の概要: Multiple View Performers for Shape Completion
- arxiv url: http://arxiv.org/abs/2209.06291v1
- Date: Tue, 13 Sep 2022 20:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:57:38.833206
- Title: Multiple View Performers for Shape Completion
- Title(参考訳): 形状完了のための複数ビューパフォーマ
- Authors: David Watkins-Valls, Peter Allen, Krzysztof Choromanski, Jacob Varley,
and Nicholas Waytowich
- Abstract要約: Multiple View Performer (MVP)は、時系列的な一連のビューから3次元形状を補完するための新しいアーキテクチャである。
MVPはPerformersと呼ばれるリニアアテンショントランスフォーマーを使用することで、このタスクを達成する。
- 参考スコア(独自算出の注目度): 16.726329439499537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the Multiple View Performer (MVP) - a new architecture for 3D
shape completion from a series of temporally sequential views. MVP accomplishes
this task by using linear-attention Transformers called Performers. Our model
allows the current observation of the scene to attend to the previous ones for
more accurate infilling. The history of past observations is compressed via the
compact associative memory approximating modern continuous Hopfield memory, but
crucially of size independent from the history length. We compare our model
with several baselines for shape completion over time, demonstrating the
generalization gains that MVP provides. To the best of our knowledge, MVP is
the first multiple view voxel reconstruction method that does not require
registration of multiple depth views and the first causal Transformer based
model for 3D shape completion.
- Abstract(参考訳): 本稿では,時間的に連続した一連のビューから3次元形状を補完する新しいアーキテクチャであるMultiple View Performer (MVP)を提案する。
MVPはPerformersと呼ばれるリニアアテンショントランスフォーマーを使用することで、このタスクを達成する。
我々のモデルは、より正確な埋め合わせのために、シーンの現在の観察を以前の観察に合わせることができる。
過去の観測の歴史は、現代の連続ホップフィールドメモリを近似するコンパクトな連想メモリを通じて圧縮されるが、そのサイズは歴史の長さとは無関係である。
MVPが提供する一般化のメリットを実証し、形状完成のためのいくつかのベースラインと比較する。
私たちの知る限り、mvpは、複数の深度ビューの登録を必要としない最初の多重ビューボクセル再構成法であり、3d形状完了のための最初の因果トランスフォーマベースモデルである。
関連論文リスト
- Reconstructing Hands in 3D with Transformers [64.15390309553892]
単分子入力から3次元の手を再構成する手法を提案する。
ハンドメッシュリカバリに対する我々のアプローチであるHaMeRは、完全にトランスフォーマーベースのアーキテクチャを踏襲し、以前の作業に比べて精度と堅牢性を大幅に向上させながら、ハンドを解析できる。
論文 参考訳(メタデータ) (2023-12-08T18:59:07Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [71.48667086232618]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - 3D-LatentMapper: View Agnostic Single-View Reconstruction of 3D Shapes [0.0]
視覚変換器(ViT)の中間潜時空間と共同画像テキスト表現モデル(CLIP)を高速かつ効率的なシングルビュー再構成(SVR)に活用する新しいフレームワークを提案する。
本研究ではShapeNetV2データセットを用いてSOTA法との比較実験を行い,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-05T11:45:26Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。
本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。
パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文 参考訳(メタデータ) (2021-03-24T03:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。