論文の概要: DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action
Segmentation
- arxiv url: http://arxiv.org/abs/2307.16803v1
- Date: Mon, 31 Jul 2023 16:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:31:14.872925
- Title: DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action
Segmentation
- Title(参考訳): dpmix: 4dアクションセグメンテーションのための深度とポイントクラウドの混合ビデオエキスパート
- Authors: Yue Zhang and Hehe Fan and Yi Yang and Mohan Kankanhalli
- Abstract要約: 本稿では,自己中心型アクションセグメンテーションタスクのためのHuman-Object Interaction 4D(HOI4D)データセットについて検討した。
我々は、ポイントクラウドビデオを深度ビデオに変換し、従来のビデオモデリング手法を用いて4Dアクションセグメンテーションを改善する。
提案手法は,HOI4D Challenge 2023の4Dアクショントラックにおいて,第1位を達成した。
- 参考スコア(独自算出の注目度): 39.806610397357986
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this technical report, we present our findings from the research conducted
on the Human-Object Interaction 4D (HOI4D) dataset for egocentric action
segmentation task. As a relatively novel research area, point cloud video
methods might not be good at temporal modeling, especially for long point cloud
videos (\eg, 150 frames). In contrast, traditional video understanding methods
have been well developed. Their effectiveness on temporal modeling has been
widely verified on many large scale video datasets. Therefore, we convert point
cloud videos into depth videos and employ traditional video modeling methods to
improve 4D action segmentation. By ensembling depth and point cloud video
methods, the accuracy is significantly improved. The proposed method, named
Mixture of Depth and Point cloud video experts (DPMix), achieved the first
place in the 4D Action Segmentation Track of the HOI4D Challenge 2023.
- Abstract(参考訳): 本稿では,自己中心型アクションセグメンテーションタスクのためのHuman-Object Interaction 4D(HOI4D)データセットの研究結果について報告する。
比較的新しい研究分野として、ポイントクラウドビデオ法は、特にロングポイントクラウドビデオ(150フレーム)では、時間的モデリングに向いていないかもしれない。
対照的に、従来のビデオ理解手法はよく開発されている。
時間的モデリングにおけるその効果は、多くの大規模ビデオデータセットで広く検証されている。
そこで我々は,ポイントクラウド映像を深度ビデオに変換し,従来のビデオモデリング手法を用いて4次元アクションセグメンテーションを改善する。
深度とポイントクラウドビデオメソッドをセンシングすることで、精度が大幅に向上した。
提案手法はMixture of Depth and Point cloud video experts (DPMix) と名付けられ,HOI4D Challenge 2023の4Dアクションセグメンテーショントラックで1位を獲得した。
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの実験によると、Efficient4Dのスピードは20倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos
through Cross-modal Knowledge Transfer [28.719098240737605]
我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。
時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。
様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-12-12T15:48:12Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - Masked Spatio-Temporal Structure Prediction for Self-supervised Learning
on Point Cloud Videos [75.9251839023226]
人間のアノテーションを使わずにポイントクラウドビデオの構造をキャプチャするMasked-temporal Structure Prediction (MaST-Pre)法を提案する。
MaST-Preは,2つの自己指導型学習タスクから構成される。まず,マスク付きポイントチューブを再構築することにより,ポイントクラウドビデオの出現情報を捉えることができる。
第2に、動作を学習するために、点管内の点数の変化を推定する時間的濃度差予測タスクを提案する。
論文 参考訳(メタデータ) (2023-08-18T02:12:54Z) - Neural Video Depth Stabilizer [74.04508918791637]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
いくつかの方法は、幾何学的制約と再射影制約を用いて、テスト時間中に単一画像深度モデルを微調整することで、時間的整合性を達成する。
本稿では,不整合深度推定を安定化し,余分な労力を伴わずに異なる単一画像深度モデルに適用可能なプラグアンドプレイフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud
Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。
我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。
実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-12-10T16:26:19Z) - Learning Fine-Grained Motion Embedding for Landscape Animation [140.57889994591494]
ファイングラインド・モーション・埋め込みを学習し,高品質でリアルな映像を生成するモデルFGLAを提案する。
多様なタイムラプスビデオのトレーニングと評価を行うため、Diverseのシーンを用いた最大の高解像度タイムラプスビデオデータセットを構築した。
提案手法は,LIPISが19%,FVDが5.6%向上した。
論文 参考訳(メタデータ) (2021-09-06T02:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。