Fugu-MT 論文翻訳(概要): X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos through Cross-modal Knowledge Transfer

論文の概要: X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos through Cross-modal Knowledge Transfer

arxiv url: http://arxiv.org/abs/2312.07378v1
Date: Tue, 12 Dec 2023 15:48:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 15:24:59.751407
Title: X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos through Cross-modal Knowledge Transfer
Title（参考訳）: X4D-SceneFormer: クロスモーダルな知識伝達による4Dポイントクラウドビデオのシーン理解の強化
Authors: Linglin Jing, Ying Xue, Xu Yan, Chaoda Zheng, Dong Wang, Ruimao Zhang, Zhigang Wang, Hui Fang, Bin Zhao, Zhen Li
Abstract要約: 我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
参考スコア（独自算出の注目度）: 28.719098240737605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The field of 4D point cloud understanding is rapidly developing with the goal of analyzing dynamic 3D point cloud sequences. However, it remains a challenging task due to the sparsity and lack of texture in point clouds. Moreover, the irregularity of point cloud poses a difficulty in aligning temporal information within video sequences. To address these issues, we propose a novel cross-modal knowledge transfer framework, called X4D-SceneFormer. This framework enhances 4D-Scene understanding by transferring texture priors from RGB sequences using a Transformer architecture with temporal relationship mining. Specifically, the framework is designed with a dual-branch architecture, consisting of an 4D point cloud transformer and a Gradient-aware Image Transformer (GIT). During training, we employ multiple knowledge transfer techniques, including temporal consistency losses and masked self-attention, to strengthen the knowledge transfer between modalities. This leads to enhanced performance during inference using single-modal 4D point cloud inputs. Extensive experiments demonstrate the superior performance of our framework on various 4D point cloud video understanding tasks, including action recognition, action segmentation and semantic segmentation. The results achieve 1st places, i.e., 85.3% (+7.9%) accuracy and 47.3% (+5.0%) mIoU for 4D action segmentation and semantic segmentation, on the HOI4D challenge\footnote{\url{http://www.hoi4d.top/}.}, outperforming previous state-of-the-art by a large margin. We release the code at https://github.com/jinglinglingling/X4D
Abstract（参考訳）: 4dポイントクラウド理解の分野は、動的3dポイントクラウドシーケンスの解析を目標として急速に発展している。しかし、点雲におけるテクスチャの疎さと欠如のため、依然として困難な課題である。さらに、点雲の不規則性は、ビデオシーケンス内の時間情報の整列に困難をもたらす。これらの問題に対処するため、我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。このフレームワークは、時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。具体的には、4Dポイント・クラウド・トランスフォーマーとGradient-aware Image Transformer (GIT)で構成されるデュアルブランチ・アーキテクチャで設計されている。学習中,モダリティ間の知識伝達を強化するために,時間的一貫性の損失やマスキングされた自己意識を含む複数の知識伝達技術を用いる。これにより、単一モードの4Dポイントクラウド入力を使用した推論時のパフォーマンスが向上する。大規模実験により,アクション認識,アクションセグメンテーション,セマンティクスセグメンテーションなど,さまざまな4dポイントクラウドビデオ理解タスクにおいて,フレームワークの優れた性能が実証された。その結果、HOI4D Challenge\footnote{\url{http://www.hoi4d.top/} 上で、85.3%(+7.9%)の精度と47.3%(+5.0%)のmIoUを4Dアクションセグメンテーションとセマンティックセグメンテーションで達成した。これは、以前の最先端技術を大きく上回っている。コードはhttps://github.com/jinglingling/x4dでリリースします。

関連論文リスト

Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [48.8325946928959]
事前学習段階における識別的4次元表現を学習するための,最初の自己異方性MAEを紹介する。我々は,Uni4Dと呼ぶ全4Dタスクの微調整性能を向上できることを実証した。
論文参考訳（メタデータ） (2025-04-07T08:47:36Z)
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking [38.104532522698285]
ビデオ拡散変換器(DiT)を直接訓練して4Dコンテンツを制御するには、高価なマルチビュービデオが必要である。モノクロ・ダイナミック・ノベル・ビュー・シンセサイザー (MDVS) に触発され, 擬似4次元ガウス場を映像生成に適用した。プレトレーニング済みのDiTを微調整して、GS-DiTと呼ばれるレンダリングされたビデオのガイダンスに従ってビデオを生成する。
論文参考訳（メタデータ） (2025-01-05T23:55:33Z)
Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文参考訳（メタデータ） (2024-10-14T17:59:59Z)
Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2024-10-09T17:56:03Z)
CT4D: Consistent Text-to-4D Generation with Animatable Meshes [53.897244823604346]
我々は,任意のユーザ供給プロンプトから一貫した4Dコンテンツを生成するために,アニマタブルメッシュを直接操作するCT4Dという新しいフレームワークを提案する。我々のフレームワークは、テキスト整列メッシュの作成を強化するために、ユニークなGenerate-Refine-Animate (GRA)アルゴリズムを組み込んでいる。定性的かつ定量的な実験結果から,我々のCT4Dフレームワークは,フレーム間の整合性の維持とグローバルジオメトリの保存において,既存のテキスト・ツー・4D技術を超えていることが示された。
論文参考訳（メタデータ） (2024-08-15T14:41:34Z)
Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation [20.904903264632733]
Flow4Dは3Dイントラボクセル機能エンコーダの後、時間的に複数の点雲を融合する。 Spatio-Temporal De Blockcomposition (STDB)は、重い4Dコンボリューションを使用する代わりに、3Dと1Dコンボリューションを組み合わせる。 Flow4Dは、リアルタイム実行時の最先端よりも45.9%高いパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-07-10T18:55:43Z)
VG4D: Vision-Language Model Goes 4D Video Recognition [34.98194339741201]
Webスケールのテキストイメージデータセットで事前トレーニングされた視覚言語モデル(VLM)は、きめ細かい視覚概念を学習することができる。視覚テキスト事前学習モデルから4DポイントクラウドネットワークへVLMの知識を伝達するためのビジョンランゲージモデル Goes 4D (VG4D) フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-17T17:54:49Z)
Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文参考訳（メタデータ） (2024-03-25T17:55:52Z)
4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文参考訳（メタデータ） (2023-12-28T18:53:39Z)
Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2022-12-10T16:26:19Z)
X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense Captioning [71.36623596807122]
3D高密度キャプションは、通常3DシーンをRGB-Dスキャンまたはポイントクラウドとして表現する3Dシーンにおいて、自然言語で個々のオブジェクトを記述することを目的としている。本研究では,トランスフォーマーを用いた3次元高密度キャプション用X-Trans2Capを用いたクロスモーダルな知識伝達について検討し,シングルモーダル3Dキャプションの性能を効果的に向上させる。
論文参考訳（メタデータ） (2022-03-02T03:35:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。