Fugu-MT 論文翻訳(概要): DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action Segmentation

論文の概要: DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action Segmentation

arxiv url: http://arxiv.org/abs/2307.16803v1
Date: Mon, 31 Jul 2023 16:14:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 13:31:14.872925
Title: DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action Segmentation
Title（参考訳）: dpmix: 4dアクションセグメンテーションのための深度とポイントクラウドの混合ビデオエキスパート
Authors: Yue Zhang and Hehe Fan and Yi Yang and Mohan Kankanhalli
Abstract要約: 本稿では,自己中心型アクションセグメンテーションタスクのためのHuman-Object Interaction 4D(HOI4D)データセットについて検討した。我々は、ポイントクラウドビデオを深度ビデオに変換し、従来のビデオモデリング手法を用いて4Dアクションセグメンテーションを改善する。提案手法は,HOI4D Challenge 2023の4Dアクショントラックにおいて,第1位を達成した。
参考スコア（独自算出の注目度）: 39.806610397357986
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this technical report, we present our findings from the research conducted on the Human-Object Interaction 4D (HOI4D) dataset for egocentric action segmentation task. As a relatively novel research area, point cloud video methods might not be good at temporal modeling, especially for long point cloud videos (\eg, 150 frames). In contrast, traditional video understanding methods have been well developed. Their effectiveness on temporal modeling has been widely verified on many large scale video datasets. Therefore, we convert point cloud videos into depth videos and employ traditional video modeling methods to improve 4D action segmentation. By ensembling depth and point cloud video methods, the accuracy is significantly improved. The proposed method, named Mixture of Depth and Point cloud video experts (DPMix), achieved the first place in the 4D Action Segmentation Track of the HOI4D Challenge 2023.
Abstract（参考訳）: 本稿では,自己中心型アクションセグメンテーションタスクのためのHuman-Object Interaction 4D(HOI4D)データセットの研究結果について報告する。比較的新しい研究分野として、ポイントクラウドビデオ法は、特にロングポイントクラウドビデオ(150フレーム)では、時間的モデリングに向いていないかもしれない。対照的に、従来のビデオ理解手法はよく開発されている。時間的モデリングにおけるその効果は、多くの大規模ビデオデータセットで広く検証されている。そこで我々は,ポイントクラウド映像を深度ビデオに変換し,従来のビデオモデリング手法を用いて4次元アクションセグメンテーションを改善する。深度とポイントクラウドビデオメソッドをセンシングすることで、精度が大幅に向上した。提案手法はMixture of Depth and Point cloud video experts (DPMix) と名付けられ,HOI4D Challenge 2023の4Dアクションセグメンテーショントラックで1位を獲得した。

関連論文リスト

Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models [83.76517697509156]
本稿では、疎視映像を入力として高忠実度視点合成の課題に対処する。本研究では, 4次元拡散モデルの視時整合性を高めるために, 反復的スライディング・デノナイジング法を提案する。提案手法は,高品質で一貫したノベルビュー映像を合成し,既存の手法を大幅に上回っている。
論文参考訳（メタデータ） (2025-07-17T17:59:17Z)
Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [48.87063562819018]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文参考訳（メタデータ） (2025-03-31T17:59:58Z)
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model [52.0192865857058]
そこで,本研究では,市販ビデオ拡散モデルを利用して,単一入力ビデオから多視点ビデオを生成する4Dビデオ生成手法を提案する。本手法はトレーニング不要で,市販のビデオ拡散モデルを完全に活用し,マルチビュービデオ生成のための実用的で効果的なソリューションを提供する。
論文参考訳（メタデータ） (2025-03-28T17:14:48Z)
Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文参考訳（メタデータ） (2025-03-27T01:44:46Z)
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking [38.104532522698285]
ビデオ拡散変換器(DiT)を直接訓練して4Dコンテンツを制御するには、高価なマルチビュービデオが必要である。モノクロ・ダイナミック・ノベル・ビュー・シンセサイザー (MDVS) に触発され, 擬似4次元ガウス場を映像生成に適用した。プレトレーニング済みのDiTを微調整して、GS-DiTと呼ばれるレンダリングされたビデオのガイダンスに従ってビデオを生成する。
論文参考訳（メタデータ） (2025-01-05T23:55:33Z)
Deblur4DGS: 4D Gaussian Splatting from Blurry Monocular Video [64.38566659338751]
Deblur4DGSという,ぼやけたモノクロビデオから高品質な4Dモデルを再構成するための,最初の4Dガウス分割フレームワークを提案する。本稿では,多面的,多面的整合性,多面的,多面的,多面的な整合性を実現するために露光規則化を導入し,斬新な視点以外では,デブレア4DGSは,デブロアリング,フレーム合成,ビデオ安定化など,多面的な視点からぼやけた映像を改善するために応用できる。
論文参考訳（メタデータ） (2024-12-09T12:02:11Z)
Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。 58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文参考訳（メタデータ） (2024-06-04T17:57:37Z)
DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。 DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文参考訳（メタデータ） (2024-05-03T17:55:34Z)
X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos through Cross-modal Knowledge Transfer [28.719098240737605]
我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
論文参考訳（メタデータ） (2023-12-12T15:48:12Z)
Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文参考訳（メタデータ） (2023-08-20T12:53:50Z)
Masked Spatio-Temporal Structure Prediction for Self-supervised Learning on Point Cloud Videos [75.9251839023226]
人間のアノテーションを使わずにポイントクラウドビデオの構造をキャプチャするMasked-temporal Structure Prediction (MaST-Pre)法を提案する。 MaST-Preは,2つの自己指導型学習タスクから構成される。まず,マスク付きポイントチューブを再構築することにより,ポイントクラウドビデオの出現情報を捉えることができる。第2に、動作を学習するために、点管内の点数の変化を推定する時間的濃度差予測タスクを提案する。
論文参考訳（メタデータ） (2023-08-18T02:12:54Z)
NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文参考訳（メタデータ） (2023-07-17T17:57:01Z)
Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2022-12-10T16:26:19Z)
Learning Fine-Grained Motion Embedding for Landscape Animation [140.57889994591494]
ファイングラインド・モーション・埋め込みを学習し,高品質でリアルな映像を生成するモデルFGLAを提案する。多様なタイムラプスビデオのトレーニングと評価を行うため、Diverseのシーンを用いた最大の高解像度タイムラプスビデオデータセットを構築した。提案手法は,LIPISが19%,FVDが5.6%向上した。
論文参考訳（メタデータ） (2021-09-06T02:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。