論文の概要: OpenHuman4D: Open-Vocabulary 4D Human Parsing
- arxiv url: http://arxiv.org/abs/2507.09880v2
- Date: Sat, 26 Jul 2025 02:39:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.951891
- Title: OpenHuman4D: Open-Vocabulary 4D Human Parsing
- Title(参考訳): OpenHuman4D: Open-Vocabulary 4D Human Parsing
- Authors: Keito Suzuki, Bang Du, Runfa Blark Li, Kunyao Chen, Lei Wang, Peng Liu, Ning Bi, Truong Nguyen,
- Abstract要約: 推論時間を短縮し,オープン語彙機能を導入する,最初の4Dヒューマンパーシングフレームワークを紹介する。
最先端のオープン・ボキャブラリーな3D人間のパース技術に基づいて、我々のアプローチは4Dの人間中心のビデオへのサポートを拡大する。
- 参考スコア(独自算出の注目度): 7.533936292165496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding dynamic 3D human representation has become increasingly critical in virtual and extended reality applications. However, existing human part segmentation methods are constrained by reliance on closed-set datasets and prolonged inference times, which significantly restrict their applicability. In this paper, we introduce the first 4D human parsing framework that simultaneously addresses these challenges by reducing the inference time and introducing open-vocabulary capabilities. Building upon state-of-the-art open-vocabulary 3D human parsing techniques, our approach extends the support to 4D human-centric video with three key innovations: 1) We adopt mask-based video object tracking to efficiently establish spatial and temporal correspondences, avoiding the necessity of segmenting all frames. 2) A novel Mask Validation module is designed to manage new target identification and mitigate tracking failures. 3) We propose a 4D Mask Fusion module, integrating memory-conditioned attention and logits equalization for robust embedding fusion. Extensive experiments demonstrate the effectiveness and flexibility of the proposed method on 4D human-centric parsing tasks, achieving up to 93.3% acceleration compared to the previous state-of-the-art method, which was limited to parsing fixed classes.
- Abstract(参考訳): 動的3D人間の表現を理解することは、バーチャルおよび拡張現実の応用においてますます重要になっている。
しかし、既存の人間の部分分割法は、クローズドセットデータセットと長期の推論時間に依存して制約を受けるため、適用性が著しく制限される。
本稿では,推論時間を短縮し,オープン語彙機能を導入することで,これらの課題に同時に対処する最初の4次元ヒューマンパーシングフレームワークを提案する。
我々のアプローチは、最先端のオープンな3D人間のパース技術に基づいており、4Dの人間中心のビデオのサポートを3つの重要なイノベーションで拡張しています。
1) すべてのフレームを分割する必要がなく, 空間的・時間的対応を効果的に確立するために, マスクベースの映像オブジェクトトラッキングを採用する。
2)新しいマスク検証モジュールは,新たなターゲット識別の管理とトラッキング障害の軽減を目的としている。
3) 組込み型核融合のためのメモリコンディショニングとロジット等化を統合した4次元マスク融合モジュールを提案する。
提案手法の有効性と柔軟性を実証し, 定型クラスに限定した従来の最先端手法と比較して, 最大93.3%の高速化を実現した。
関連論文リスト
- Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion [91.54433928140816]
本稿では、画像生成分野からの拡散手法を導入し、効率的な顔行動生成を実現する顔行動拡散(FAD)を提案する。
さらに,話者の視覚情報と音声情報の両方を入力として扱えるように設計された,効率的なリスナーネットワーク(ELNet)を構築した。
提案手法は,FADとELNetを考慮し,効果的な顔の動き表現を学習し,最先端の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-29T12:08:02Z) - Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [70.07088203106443]
既存の手法は運動を学ぶための明示的な知識に依存しており、結果として準最適表現をもたらす。
Masked Autoentangler (MAE)フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本稿では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
論文 参考訳(メタデータ) (2025-04-07T08:47:36Z) - Open-Vocabulary Semantic Part Segmentation of 3D Human [4.380538063753977]
3次元人間を扱える最初のオープン語彙セグメンテーション法を提案する。
我々のフレームワークは、テキストのプロンプトに基づいて、人間のカテゴリを所望のきめ細かい部分に分類することができる。
本手法はメッシュ,点雲,3次元ガウススプラッティングなど,様々な3次元表現に直接適用することができる。
論文 参考訳(メタデータ) (2025-02-27T05:47:05Z) - Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - FinePOSE: Fine-Grained Prompt-Driven 3D Human Pose Estimation via Diffusion Models [40.966197115577344]
3Dヒューマンポース推定タスクは、3D空間における人間の関節座標を予測するために2D画像またはビデオを使用する。
我々は3次元HPEの拡散モデルに基づくファイングレードプロンプト駆動型デノイザ(textbfFinePOSE)を提案する。
拡散モデルの逆過程を強化する3つのコアブロックから構成される。
公開シングルヒューマンポーズデータセットの実験では、FinePOSEが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-08T17:09:03Z) - Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models [8.933560282929726]
我々はComprehensive Affordance(ComA)という新しい余裕表現を導入する。
3Dオブジェクトメッシュが与えられたとき、ComAは相互作用する人間のメッシュにおける相対配向と頂点の近接の分布をモデル化する。
ComAは、連絡先ベースの価格のモデリングにおいて、人間のアノテーションに依存している競争相手よりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-01-23T18:59:59Z) - A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-28T15:03:53Z) - Context-Aware Sequence Alignment using 4D Skeletal Augmentation [67.05537307224525]
コンピュータビジョン、ロボティクス、混合現実の多くの応用において、ビデオにおける人間の行動の微粒化の時間的アライメントが重要である。
本稿では,アクションのシーケンスを整列するコンテキスト認識型自己教師型学習アーキテクチャを提案する。
特に、CASAは、人間の行動の空間的・時間的文脈を組み込むために、自己注意と相互注意のメカニズムを採用している。
論文 参考訳(メタデータ) (2022-04-26T10:59:29Z) - Magnifying Subtle Facial Motions for Effective 4D Expression Recognition [56.806738404887824]
3D面の流れをまず解析し、空間的な変形を捉えます。
これらの変形の得られた時間的進化は、拡大法に供給される。
本論文の主な貢献である後者では、感情分類性能を高める微妙な(隠れた)変形を明らかにすることができる。
論文 参考訳(メタデータ) (2021-05-05T20:47:43Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。