論文の概要: X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos
through Cross-modal Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2312.07378v1
- Date: Tue, 12 Dec 2023 15:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-13 15:24:59.751407
- Title: X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos
through Cross-modal Knowledge Transfer
- Title(参考訳): X4D-SceneFormer: クロスモーダルな知識伝達による4Dポイントクラウドビデオのシーン理解の強化
- Authors: Linglin Jing, Ying Xue, Xu Yan, Chaoda Zheng, Dong Wang, Ruimao Zhang,
Zhigang Wang, Hui Fang, Bin Zhao, Zhen Li
- Abstract要約: 我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。
時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。
様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
- 参考スコア(独自算出の注目度): 28.719098240737605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of 4D point cloud understanding is rapidly developing with the goal
of analyzing dynamic 3D point cloud sequences. However, it remains a
challenging task due to the sparsity and lack of texture in point clouds.
Moreover, the irregularity of point cloud poses a difficulty in aligning
temporal information within video sequences. To address these issues, we
propose a novel cross-modal knowledge transfer framework, called
X4D-SceneFormer. This framework enhances 4D-Scene understanding by transferring
texture priors from RGB sequences using a Transformer architecture with
temporal relationship mining. Specifically, the framework is designed with a
dual-branch architecture, consisting of an 4D point cloud transformer and a
Gradient-aware Image Transformer (GIT). During training, we employ multiple
knowledge transfer techniques, including temporal consistency losses and masked
self-attention, to strengthen the knowledge transfer between modalities. This
leads to enhanced performance during inference using single-modal 4D point
cloud inputs. Extensive experiments demonstrate the superior performance of our
framework on various 4D point cloud video understanding tasks, including action
recognition, action segmentation and semantic segmentation. The results achieve
1st places, i.e., 85.3% (+7.9%) accuracy and 47.3% (+5.0%) mIoU for 4D action
segmentation and semantic segmentation, on the HOI4D
challenge\footnote{\url{http://www.hoi4d.top/}.}, outperforming previous
state-of-the-art by a large margin. We release the code at
https://github.com/jinglinglingling/X4D
- Abstract(参考訳): 4dポイントクラウド理解の分野は、動的3dポイントクラウドシーケンスの解析を目標として急速に発展している。
しかし、点雲におけるテクスチャの疎さと欠如のため、依然として困難な課題である。
さらに、点雲の不規則性は、ビデオシーケンス内の時間情報の整列に困難をもたらす。
これらの問題に対処するため、我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。
このフレームワークは、時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。
具体的には、4Dポイント・クラウド・トランスフォーマーとGradient-aware Image Transformer (GIT)で構成されるデュアルブランチ・アーキテクチャで設計されている。
学習中,モダリティ間の知識伝達を強化するために,時間的一貫性の損失やマスキングされた自己意識を含む複数の知識伝達技術を用いる。
これにより、単一モードの4Dポイントクラウド入力を使用した推論時のパフォーマンスが向上する。
大規模実験により,アクション認識,アクションセグメンテーション,セマンティクスセグメンテーションなど,さまざまな4dポイントクラウドビデオ理解タスクにおいて,フレームワークの優れた性能が実証された。
その結果、HOI4D Challenge\footnote{\url{http://www.hoi4d.top/} 上で、85.3%(+7.9%)の精度と47.3%(+5.0%)のmIoUを4Dアクションセグメンテーションとセマンティックセグメンテーションで達成した。
これは、以前の最先端技術を大きく上回っている。
コードはhttps://github.com/jinglingling/x4dでリリースします。
関連論文リスト
- Efficiently Reconstructing Dynamic Scenes One D4RT at a Time [54.67332582569525]
本稿では、このタスクを効率的に解くために設計された、シンプルながら強力なフィードフォワードモデルであるD4RTを紹介する。
我々のデコードインタフェースにより、モデルは独立して、空間と時間の任意の点の3D位置を柔軟にプローブすることができる。
提案手法は,従来の手法よりも広い範囲の4次元再構成作業に優れることを示す。
論文 参考訳(メタデータ) (2025-12-09T18:57:21Z) - Dynamic-eDiTor: Training-Free Text-Driven 4D Scene Editing with Multimodal Diffusion Transformer [21.55368174087611]
我々は,Multimodal Diffusion Transformer(MM-DiT)と4DGSを活用した,トレーニング不要のテキスト駆動4D編集フレームワークであるDynamic-eDiTorを紹介する。
提案手法は,複数ビューと時間的一貫性の両面において,より優れた編集精度を実現する。
論文 参考訳(メタデータ) (2025-11-30T00:18:46Z) - C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [48.8325946928959]
事前学習段階における識別的4次元表現を学習するための,最初の自己異方性MAEを紹介する。
我々は,Uni4Dと呼ぶ全4Dタスクの微調整性能を向上できることを実証した。
論文 参考訳(メタデータ) (2025-04-07T08:47:36Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking [38.104532522698285]
ビデオ拡散変換器(DiT)を直接訓練して4Dコンテンツを制御するには、高価なマルチビュービデオが必要である。
モノクロ・ダイナミック・ノベル・ビュー・シンセサイザー (MDVS) に触発され, 擬似4次元ガウス場を映像生成に適用した。
プレトレーニング済みのDiTを微調整して、GS-DiTと呼ばれるレンダリングされたビデオのガイダンスに従ってビデオを生成する。
論文 参考訳(メタデータ) (2025-01-05T23:55:33Z) - Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - CT4D: Consistent Text-to-4D Generation with Animatable Meshes [53.897244823604346]
我々は,任意のユーザ供給プロンプトから一貫した4Dコンテンツを生成するために,アニマタブルメッシュを直接操作するCT4Dという新しいフレームワークを提案する。
我々のフレームワークは、テキスト整列メッシュの作成を強化するために、ユニークなGenerate-Refine-Animate (GRA)アルゴリズムを組み込んでいる。
定性的かつ定量的な実験結果から,我々のCT4Dフレームワークは,フレーム間の整合性の維持とグローバルジオメトリの保存において,既存のテキスト・ツー・4D技術を超えていることが示された。
論文 参考訳(メタデータ) (2024-08-15T14:41:34Z) - Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation [20.904903264632733]
Flow4Dは3Dイントラボクセル機能エンコーダの後、時間的に複数の点雲を融合する。
Spatio-Temporal De Blockcomposition (STDB)は、重い4Dコンボリューションを使用する代わりに、3Dと1Dコンボリューションを組み合わせる。
Flow4Dは、リアルタイム実行時の最先端よりも45.9%高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-10T18:55:43Z) - VG4D: Vision-Language Model Goes 4D Video Recognition [34.98194339741201]
Webスケールのテキストイメージデータセットで事前トレーニングされた視覚言語モデル(VLM)は、きめ細かい視覚概念を学習することができる。
視覚テキスト事前学習モデルから4DポイントクラウドネットワークへVLMの知識を伝達するためのビジョンランゲージモデル Goes 4D (VG4D) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T17:54:49Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud
Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。
我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。
実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-12-10T16:26:19Z) - X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D
Dense Captioning [71.36623596807122]
3D高密度キャプションは、通常3DシーンをRGB-Dスキャンまたはポイントクラウドとして表現する3Dシーンにおいて、自然言語で個々のオブジェクトを記述することを目的としている。
本研究では,トランスフォーマーを用いた3次元高密度キャプション用X-Trans2Capを用いたクロスモーダルな知識伝達について検討し,シングルモーダル3Dキャプションの性能を効果的に向上させる。
論文 参考訳(メタデータ) (2022-03-02T03:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。