論文の概要: MGHanD: Multi-modal Guidance for authentic Hand Diffusion
- arxiv url: http://arxiv.org/abs/2503.08133v1
- Date: Tue, 11 Mar 2025 07:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:39.746250
- Title: MGHanD: Multi-modal Guidance for authentic Hand Diffusion
- Title(参考訳): MGHanD: 真の手指拡散のためのマルチモーダルガイダンス
- Authors: Taehyeon Eum, Jieun Choi, Tae-Kyun Kim,
- Abstract要約: MGHanDは、現実的な人間の手を生成する際の永続的な課題に対処する。
実画像と生成された画像とキャプションのペアからなるデータセット上で訓練された識別器を用いる。
また,手からより詳細な指示への方向学習を行うLoRAアダプタによるテキストガイダンスも採用している。
- 参考スコア(独自算出の注目度): 25.887930576638293
- License:
- Abstract: Diffusion-based methods have achieved significant successes in T2I generation, providing realistic images from text prompts. Despite their capabilities, these models face persistent challenges in generating realistic human hands, often producing images with incorrect finger counts and structurally deformed hands. MGHanD addresses this challenge by applying multi-modal guidance during the inference process. For visual guidance, we employ a discriminator trained on a dataset comprising paired real and generated images with captions, derived from various hand-in-the-wild datasets. We also employ textual guidance with LoRA adapter, which learns the direction from `hands' towards more detailed prompts such as `natural hands', and `anatomically correct fingers' at the latent level. A cumulative hand mask which is gradually enlarged in the assigned time step is applied to the added guidance, allowing the hand to be refined while maintaining the rich generative capabilities of the pre-trained model. In the experiments, our method achieves superior hand generation qualities, without any specific conditions or priors. We carry out both quantitative and qualitative evaluations, along with user studies, to showcase the benefits of our approach in producing high-quality hand images.
- Abstract(参考訳): 拡散に基づく手法は、テキストプロンプトからリアルな画像を提供するT2I生成において大きな成功を収めた。
それらの能力にもかかわらず、これらのモデルは現実的な人間の手を生成するための永続的な課題に直面し、しばしば不正確な指数と構造的に変形した手を持つ画像を生成する。
MGHanDは推論プロセス中にマルチモーダルガイダンスを適用することでこの問題に対処する。
視覚指導のために,実画像と生成画像のペアとキャプションからなるデータセット上で訓練された識別器を用いる。
また,「手」から「自然な手」や「解剖学的に正しい指」といったより詳細なプロンプトへの方向を潜在レベルで学習するLoRAアダプタを用いてテキスト指導を行う。
追加ガイダンスには、割り当てられた時間ステップで徐々に拡大する累積手マスクが適用され、事前訓練されたモデルの豊かな生成能力を維持しつつ、手が洗練される。
実験では, 特定の条件や事前条件を伴わずに, 優れたハンドジェネレーション特性を実現する。
質の高い手画像を作成する上でのアプローチのメリットを示すために,定量的,質的な評価とユーザスタディの両方を実施している。
関連論文リスト
- FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation [11.843140646170458]
単手画像と双手画像のための大規模ドメイン固有拡散モデルFoundHandを提案する。
2Dキーポイントとセグメンテーションマスクアノテーションを備えた大規模ハンドデータセットであるFoundHand-10Mを使用している。
本モデルでは,手の動きを再現したり,手の動きを伝達したり,新しいビューを合成したりといった,中核的な機能を示す。
論文 参考訳(メタデータ) (2024-12-03T18:58:19Z) - MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - Hand1000: Generating Realistic Hands from Text with Only 1,000 Images [29.562925199318197]
本論文では,目標ジェスチャーによる現実的な手動画像の生成を可能にするHand1000という新しい手法を提案する。
Hand1000の訓練は3つの段階に分けられ、第1段階はモデルによる手解剖学の理解を高めることを目的としている。
テキスト・ツー・ハンド画像生成に特化して設計された最初の公開データセットを構築した。
論文 参考訳(メタデータ) (2024-08-28T00:54:51Z) - RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance [41.213241942526935]
拡散モデルは高品質な人間の画像を生成することができるが、それらの応用は正しい構造を持つ手を生成する不安定性によって制限される。
共役構造とスタイルガイダンスの助けを借りて手領域を洗練するための条件付き拡散型フレームワーク RHanDS を提案する。
実験の結果,RHanDSは従来の手法と比較して手の構造とスタイルを効果的に洗練できることがわかった。
論文 参考訳(メタデータ) (2024-04-22T08:44:34Z) - Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation [29.79050316749927]
ポーズ条件付き人体画像生成に新たなアプローチを導入し,その過程を2段階に分けた。
両ステージの結果をコヒーレントな方法で組み合わせた第2段階のハンドディテールを維持するために, 新規なブレンディング技術が導入された。
提案手法は生成した手の品質を向上するだけでなく、ポーズ条件付き人体画像生成の能力を向上させるとともに、手ポーズの制御も改善する。
論文 参考訳(メタデータ) (2024-03-15T23:31:41Z) - HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances [34.50137847908887]
テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。
一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。
そこで我々はHanDiffuserという新しい拡散型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-04T03:00:22Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting [72.95232302438207]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:52:08Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z) - Im2Hands: Learning Attentive Implicit Representation of Interacting
Two-Hand Shapes [58.551154822792284]
Implicit Two Hands (Im2Hands) は、2つの相互作用する手の最初の暗黙の表現である。
Im2Handsは、両手と手と手と画像のコヒーレンシーの高い2つの手のきめ細かい幾何学を生成することができる。
両手再建におけるIm2Handsの有効性を, 関連手法と比較して実験的に実証した。
論文 参考訳(メタデータ) (2023-02-28T06:38:25Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。