論文の概要: DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action
Segmentation
- arxiv url: http://arxiv.org/abs/2307.16803v1
- Date: Mon, 31 Jul 2023 16:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:31:14.872925
- Title: DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action
Segmentation
- Title(参考訳): dpmix: 4dアクションセグメンテーションのための深度とポイントクラウドの混合ビデオエキスパート
- Authors: Yue Zhang and Hehe Fan and Yi Yang and Mohan Kankanhalli
- Abstract要約: 本稿では,自己中心型アクションセグメンテーションタスクのためのHuman-Object Interaction 4D(HOI4D)データセットについて検討した。
我々は、ポイントクラウドビデオを深度ビデオに変換し、従来のビデオモデリング手法を用いて4Dアクションセグメンテーションを改善する。
提案手法は,HOI4D Challenge 2023の4Dアクショントラックにおいて,第1位を達成した。
- 参考スコア(独自算出の注目度): 39.806610397357986
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this technical report, we present our findings from the research conducted
on the Human-Object Interaction 4D (HOI4D) dataset for egocentric action
segmentation task. As a relatively novel research area, point cloud video
methods might not be good at temporal modeling, especially for long point cloud
videos (\eg, 150 frames). In contrast, traditional video understanding methods
have been well developed. Their effectiveness on temporal modeling has been
widely verified on many large scale video datasets. Therefore, we convert point
cloud videos into depth videos and employ traditional video modeling methods to
improve 4D action segmentation. By ensembling depth and point cloud video
methods, the accuracy is significantly improved. The proposed method, named
Mixture of Depth and Point cloud video experts (DPMix), achieved the first
place in the 4D Action Segmentation Track of the HOI4D Challenge 2023.
- Abstract(参考訳): 本稿では,自己中心型アクションセグメンテーションタスクのためのHuman-Object Interaction 4D(HOI4D)データセットの研究結果について報告する。
比較的新しい研究分野として、ポイントクラウドビデオ法は、特にロングポイントクラウドビデオ(150フレーム)では、時間的モデリングに向いていないかもしれない。
対照的に、従来のビデオ理解手法はよく開発されている。
時間的モデリングにおけるその効果は、多くの大規模ビデオデータセットで広く検証されている。
そこで我々は,ポイントクラウド映像を深度ビデオに変換し,従来のビデオモデリング手法を用いて4次元アクションセグメンテーションを改善する。
深度とポイントクラウドビデオメソッドをセンシングすることで、精度が大幅に向上した。
提案手法はMixture of Depth and Point cloud video experts (DPMix) と名付けられ,HOI4D Challenge 2023の4Dアクションセグメンテーショントラックで1位を獲得した。
関連論文リスト
- Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文 参考訳(メタデータ) (2025-01-21T18:53:30Z) - GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking [38.104532522698285]
ビデオ拡散変換器(DiT)を直接訓練して4Dコンテンツを制御するには、高価なマルチビュービデオが必要である。
モノクロ・ダイナミック・ノベル・ビュー・シンセサイザー (MDVS) に触発され, 擬似4次元ガウス場を映像生成に適用した。
プレトレーニング済みのDiTを微調整して、GS-DiTと呼ばれるレンダリングされたビデオのガイダンスに従ってビデオを生成する。
論文 参考訳(メタデータ) (2025-01-05T23:55:33Z) - Deblur4DGS: 4D Gaussian Splatting from Blurry Monocular Video [64.38566659338751]
Deblur4DGSという,ぼやけたモノクロビデオから高品質な4Dモデルを再構成するための,最初の4Dガウス分割フレームワークを提案する。
本稿では,多面的,多面的整合性,多面的,多面的,多面的な整合性を実現するために露光規則化を導入し,斬新な視点以外では,デブレア4DGSは,デブロアリング,フレーム合成,ビデオ安定化など,多面的な視点からぼやけた映像を改善するために応用できる。
論文 参考訳(メタデータ) (2024-12-09T12:02:11Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos
through Cross-modal Knowledge Transfer [28.719098240737605]
我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。
時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。
様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-12-12T15:48:12Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud
Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。
我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。
実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-12-10T16:26:19Z) - Learning Fine-Grained Motion Embedding for Landscape Animation [140.57889994591494]
ファイングラインド・モーション・埋め込みを学習し,高品質でリアルな映像を生成するモデルFGLAを提案する。
多様なタイムラプスビデオのトレーニングと評価を行うため、Diverseのシーンを用いた最大の高解像度タイムラプスビデオデータセットを構築した。
提案手法は,LIPISが19%,FVDが5.6%向上した。
論文 参考訳(メタデータ) (2021-09-06T02:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。