論文の概要: Multiple View Performers for Shape Completion
- arxiv url: http://arxiv.org/abs/2209.06291v1
- Date: Tue, 13 Sep 2022 20:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:57:38.833206
- Title: Multiple View Performers for Shape Completion
- Title(参考訳): 形状完了のための複数ビューパフォーマ
- Authors: David Watkins-Valls, Peter Allen, Krzysztof Choromanski, Jacob Varley,
and Nicholas Waytowich
- Abstract要約: Multiple View Performer (MVP)は、時系列的な一連のビューから3次元形状を補完するための新しいアーキテクチャである。
MVPはPerformersと呼ばれるリニアアテンショントランスフォーマーを使用することで、このタスクを達成する。
- 参考スコア(独自算出の注目度): 16.726329439499537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the Multiple View Performer (MVP) - a new architecture for 3D
shape completion from a series of temporally sequential views. MVP accomplishes
this task by using linear-attention Transformers called Performers. Our model
allows the current observation of the scene to attend to the previous ones for
more accurate infilling. The history of past observations is compressed via the
compact associative memory approximating modern continuous Hopfield memory, but
crucially of size independent from the history length. We compare our model
with several baselines for shape completion over time, demonstrating the
generalization gains that MVP provides. To the best of our knowledge, MVP is
the first multiple view voxel reconstruction method that does not require
registration of multiple depth views and the first causal Transformer based
model for 3D shape completion.
- Abstract(参考訳): 本稿では,時間的に連続した一連のビューから3次元形状を補完する新しいアーキテクチャであるMultiple View Performer (MVP)を提案する。
MVPはPerformersと呼ばれるリニアアテンショントランスフォーマーを使用することで、このタスクを達成する。
我々のモデルは、より正確な埋め合わせのために、シーンの現在の観察を以前の観察に合わせることができる。
過去の観測の歴史は、現代の連続ホップフィールドメモリを近似するコンパクトな連想メモリを通じて圧縮されるが、そのサイズは歴史の長さとは無関係である。
MVPが提供する一般化のメリットを実証し、形状完成のためのいくつかのベースラインと比較する。
私たちの知る限り、mvpは、複数の深度ビューの登録を必要としない最初の多重ビューボクセル再構成法であり、3d形状完了のための最初の因果トランスフォーマベースモデルである。
関連論文リスト
- MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - MVPbev: Multi-view Perspective Image Generation from BEV with Test-time Controllability and Generalizability [17.995042743704442]
MVPbevは2段階の設計で、異なる視点ビューのクロスビュー一貫性のあるイメージを同時に生成する。
本手法は,数千のトレーニングサンプルを用いたテキスト記述から高解像度のフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-07-28T11:39:40Z) - Reconstructing Hands in 3D with Transformers [64.15390309553892]
単分子入力から3次元の手を再構成する手法を提案する。
ハンドメッシュリカバリに対する我々のアプローチであるHaMeRは、完全にトランスフォーマーベースのアーキテクチャを踏襲し、以前の作業に比べて精度と堅牢性を大幅に向上させながら、ハンドを解析できる。
論文 参考訳(メタデータ) (2023-12-08T18:59:07Z) - 3D-LatentMapper: View Agnostic Single-View Reconstruction of 3D Shapes [0.0]
視覚変換器(ViT)の中間潜時空間と共同画像テキスト表現モデル(CLIP)を高速かつ効率的なシングルビュー再構成(SVR)に活用する新しいフレームワークを提案する。
本研究ではShapeNetV2データセットを用いてSOTA法との比較実験を行い,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-05T11:45:26Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。
本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。
パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文 参考訳(メタデータ) (2021-03-24T03:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。