Fugu-MT 論文翻訳(概要): Discriminative-Generative Synergy for Occlusion Robust 3D Human Mesh Recovery

論文の概要: Discriminative-Generative Synergy for Occlusion Robust 3D Human Mesh Recovery

arxiv url: http://arxiv.org/abs/2604.21712v1
Date: Mon, 20 Apr 2026 20:31:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.589614
Title: Discriminative-Generative Synergy for Occlusion Robust 3D Human Mesh Recovery
Title（参考訳）: 閉塞性ロバスト3次元メッシュ回復のための識別生成相乗効果
Authors: Yang Liu, Zhiyong Zhang,
Abstract要約: 単眼RGB画像からの3次元メッシュの回収は、下流の応用のために解剖学的に妥当な3次元モデルを推定することを目的としている。本稿では,視覚変換器の識別能力と条件付き拡散モデルの生成能力を統合する脳誘発フレームワークを提案する。
参考スコア（独自算出の注目度）: 5.966636064805421
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D human mesh recovery from monocular RGB images aims to estimate anatomically plausible 3D human models for downstream applications, but remains challenging under partial or severe occlusions. Regression-based methods are efficient yet often produce implausible or inaccurate results in unconstrained scenarios, while diffusion-based methods provide strong generative priors for occluded regions but may weaken fidelity to rare poses due to over-reliance on generation. To address these limitations, we propose a brain-inspired synergistic framework that integrates the discriminative power of vision transformers with the generative capability of conditional diffusion models. Specifically, the ViT-based pathway extracts deterministic visual cues from visible regions, while the diffusion-based pathway synthesizes structurally coherent human body representations. To effectively bridge the two pathways, we design a diverse-consistent feature learning module to align discriminative features with generative priors, and a cross-attention multi-level fusion mechanism to enable bidirectional interaction across semantic levels. Experiments on standard benchmarks demonstrate that our method achieves superior performance on key metrics and shows strong robustness in complex real-world scenarios.
Abstract（参考訳）: 単眼のRGB画像から3Dのメッシュを回収することは、下流の応用に解剖学的に妥当な3Dモデルを推定することを目的としている。回帰に基づく手法は効率が良いが、非拘束的なシナリオにおいて不正確な結果をもたらすことが多いが、拡散に基づく手法は、排除された領域に対して強力な生成先行を提供するが、生成に対する過度な依存のため、稀なポーズに対する忠実さを弱める可能性がある。これらの制約に対処するために,視覚変換器の識別能力と条件付き拡散モデルの生成能力を統合する,脳に触発された相乗的枠組みを提案する。具体的には、ViT系経路は可視領域から決定論的視覚的手がかりを抽出し、拡散系経路は構造的に整合した人体表現を合成する。これら2つの経路を効果的に橋渡しするために,識別的特徴を生成前と整合させる多様な特徴学習モジュールと,意味レベル間の双方向相互作用を可能にする多段階融合機構を設計する。標準ベンチマーク実験により,本手法は重要な指標において優れた性能を示し,複雑な実世界のシナリオにおいて強靭性を示す。

関連論文リスト

DNA: Uncovering Universal Latent Forgery Knowledge [39.19379714306656]
フォージェリ検出機能は、すでにトレーニング済みのモデル内にエンコードされている。 DNAフレームワークは粗大な発掘機構を採用している。 Hifi-Genは、最新のモデルの上に構築された高忠実度合成ベンチマークである。
論文参考訳（メタデータ） (2026-01-30T03:48:30Z)
Dual Conditioned Motion Diffusion for Pose-Based Video Anomaly Detection [12.100563798908777]
コンピュータビジョン研究にはビデオ異常検出(VAD)が不可欠である。既存のVADメソッドは、再構築ベースのフレームワークまたは予測ベースのフレームワークを使用する。ポーズに基づくビデオ異常検出に対処し、Dual Conditioned Motion Diffusionと呼ばれる新しいフレームワークを導入する。
論文参考訳（メタデータ） (2024-12-23T01:31:39Z)
DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文参考訳（メタデータ） (2024-04-01T18:59:13Z)
D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文参考訳（メタデータ） (2023-11-23T20:14:50Z)
Reference-Free Isotropic 3D EM Reconstruction using Diffusion Models [8.590026259176806]
本稿では、参照データや劣化過程に関する事前知識の制限を克服する拡散モデルに基づくフレームワークを提案する。提案手法では, 2次元拡散モデルを用いて連続的に3次元ボリュームを再構成し, 高精度なサンプルデータに適している。
論文参考訳（メタデータ） (2023-08-03T07:57:02Z)
Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2022-12-10T06:28:29Z)
Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2022-03-29T07:14:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。