論文の概要: DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies
- arxiv url: http://arxiv.org/abs/2601.02267v1
- Date: Mon, 05 Jan 2026 16:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.288344
- Title: DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies
- Title(参考訳): DiffProxy:拡散生成高密度プロキシによるマルチビューヒューマンメッシュのリカバリ
- Authors: Renke Wang, Zhenyu Zhang, Ying Tai, Jian Yang,
- Abstract要約: Diffproxyは、メッシュリカバリのためのマルチビュー一貫性のあるヒューマンプロキシを生成する新しいフレームワークである。
5つの実世界のベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 34.547846301437474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html
- Abstract(参考訳): 実世界のデータセットには、モデルのトレーニングに偏った不完全な地平のアノテーションが含まれており、正確な監視を伴う合成データはドメインギャップに悩まされている。
本稿では,メッシュ回復のための多視点一貫した人間プロキシを生成する新しいフレームワークであるDiffProxyを提案する。
Central to DiffProxyは、拡散に基づく生成の事前を利用して、合成トレーニングと実世界の一般化を橋渡ししている。
主なイノベーションは,(1)多視点一貫した画素対応の人的プロキシを生成するマルチ条件機構,(2)フレキシブルな視覚的プロンプトを組み込んで局所的な詳細を向上する手書き改良モジュール,(3)最適化時の課題に対して堅牢性を高める不確実性を考慮したテスト時間スケーリング手法である。
これらの設計により、メッシュ回収プロセスは、拡散に基づくパイプラインの正確な合成基底真理と生成上の利点から効果的に恩恵を受ける。
完全に合成データに基づいてトレーニングされたDiffProxyは,5つの実世界のベンチマークで最先端のパフォーマンスを実現している。
プロジェクトページ: https://wrk226.github.io/DiffProxy.html
関連論文リスト
- UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass [83.7071371474926]
UniSHは、統合されたフィードフォワードフレームワークで、共同でメートルスケールの3Dシーンと人間の再構築を行う。
我々のフレームワークは、シーン再構築とHMRとの違いを強く橋渡しします。
本モデルは,人間中心のシーン再構築における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-01-03T16:06:27Z) - Patch-Discontinuity Mining for Generalized Deepfake Detection [18.30761992906741]
ディープフェイク検出法は、しばしば手作りの法医学的手がかりと複雑なアーキテクチャに依存している。
我々は,強力な視覚モデルをコンパクトで巧妙なネットワーク設計でディープフェイク検出タスクに転送するフレームワークであるGenDFを提案する。
実験により、GenDFはクロスドメインおよびクロスマニピュレーション設定における最先端の一般化性能を達成することが示された。
論文 参考訳(メタデータ) (2025-12-26T13:18:14Z) - Face Forgery Detection with Elaborate Backbone [50.914676786151574]
Face Forgery Detectionは、デジタル顔が本物か偽物かを決定することを目的としている。
以前のFFDモデルは、偽造の手がかりを表現および抽出するために既存のバックボーンを直接使用していた。
本稿では,実顔データセットを用いた自己教師型学習でVTネットワークを活用することで,バックボーンの事前トレーニングを提案する。
次に、多様な偽の手がかりを抽出するバックボーンの能力を強化するために、競争力のあるバックボーンの微調整フレームワークを構築します。
論文 参考訳(メタデータ) (2024-09-25T13:57:16Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - FaceCat: Enhancing Face Recognition Security with a Unified Diffusion Model [30.0523477092216]
対面防止(FAS)と対向検出(FAD)は、顔認識システムの安全性を確保するための重要な技術であると考えられている。
本研究の目的は,1) 顔下特徴表現と2) トレーニングデータの不足という2つの主要な障害を突破することで,この目標を達成することである。
論文 参考訳(メタデータ) (2024-04-14T09:01:26Z) - Single Image Reflection Separation via Component Synergy [14.57590565534889]
反射重畳現象は複雑で、現実世界に広く分布している。
学習可能な残余項を導入することにより、重ね合わせモデルのより一般的な形式を提案する。
その利点をフルに活用するために,ネットワーク構造をさらに精巧に設計する。
論文 参考訳(メタデータ) (2023-08-19T14:25:27Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。