論文の概要: Point Primitive Transformer for Long-Term 4D Point Cloud Video
Understanding
- arxiv url: http://arxiv.org/abs/2208.00281v1
- Date: Sat, 30 Jul 2022 17:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:47:56.634799
- Title: Point Primitive Transformer for Long-Term 4D Point Cloud Video
Understanding
- Title(参考訳): 長期4Dポイントクラウド映像理解のためのポイントプリミティブトランス
- Authors: Hao Wen, Yunze Liu, Jingwei Huang, Bo Duan, Li Yi
- Abstract要約: 時空間コンテキストをキャプチャする典型的な方法は、階層を持たない4Dconvまたはtransformerを使用することである。
本稿では,主に原点内変圧器とプリミティブ変圧器から構成されるPPTr(Point Primitive Transformer)という新しい階層的バックボーンを提案する。
- 参考スコア(独自算出の注目度): 25.526263049454748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a 4D backbone for long-term point cloud video
understanding. A typical way to capture spatial-temporal context is using
4Dconv or transformer without hierarchy. However, those methods are neither
effective nor efficient enough due to camera motion, scene changes, sampling
patterns, and the complexity of 4D data. To address those issues, we leverage
the primitive plane as a mid-level representation to capture the long-term
spatial-temporal context in 4D point cloud videos and propose a novel
hierarchical backbone named Point Primitive Transformer(PPTr), which is mainly
composed of intra-primitive point transformers and primitive transformers.
Extensive experiments show that PPTr outperforms the previous state of the arts
on different tasks
- Abstract(参考訳): 本稿では,長期クラウドビデオ理解のための4次元バックボーンを提案する。
空間的-時間的文脈をキャプチャする典型的な方法は階層構造のない4dconvやtransformerである。
しかし、これらの手法は、カメラの動き、シーンの変化、サンプリングパターン、および4Dデータの複雑さにより、効果も効率も十分ではない。
これらの問題に対処するために,我々はプリミティブプレーンを中レベル表現として活用し,4dポイントクラウドビデオにおける長期空間-時間的文脈を捉え,主にプリミティブポイントトランスフォーマーとプリミティブトランスフォーマーで構成される新しい階層的バックボーンであるpoint primitive transformer(pptr)を提案する。
PPTrは、様々なタスクにおいて、過去の芸術の状況より優れていた
関連論文リスト
- Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
状態空間モデル(SSM)に基づく新しい点雲理解バックボーンを提案する。
具体的には,まず空間と時間を4次元ビデオシーケンスで切り離し,設計したマンバブロックと空間的時間的相関を確立する。
提案手法は, 87.5%のGPUメモリ削減と5.36倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos
through Cross-modal Knowledge Transfer [28.719098240737605]
我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。
時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。
様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-12-12T15:48:12Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers [77.52828273633646]
暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマー用の新しいドロップインブロックを提案する。
また,入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。
我々は、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2021-06-09T21:16:05Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction [43.60322886598972]
本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
本稿では,クロスフレーム占有領域間の連続的変換関数を捉えることにより,人間の3次元形状の時間変化を学ぶための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2021-03-30T13:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。