論文の概要: HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances
- arxiv url: http://arxiv.org/abs/2403.01693v3
- Date: Fri, 22 Nov 2024 22:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:16:55.138480
- Title: HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances
- Title(参考訳): HanDiffuser:リアルな手触りでテキストから画像生成
- Authors: Supreeth Narasimhaswamy, Uttaran Bhattacharya, Xiang Chen, Ishita Dasgupta, Saayan Mitra, Minh Hoai,
- Abstract要約: テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。
一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。
そこで我々はHanDiffuserという新しい拡散型アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 34.50137847908887
- License:
- Abstract: Text-to-image generative models can generate high-quality humans, but realism is lost when generating hands. Common artifacts include irregular hand poses, shapes, incorrect numbers of fingers, and physically implausible finger orientations. To generate images with realistic hands, we propose a novel diffusion-based architecture called HanDiffuser that achieves realism by injecting hand embeddings in the generative process. HanDiffuser consists of two components: a Text-to-Hand-Params diffusion model to generate SMPL-Body and MANO-Hand parameters from input text prompts, and a Text-Guided Hand-Params-to-Image diffusion model to synthesize images by conditioning on the prompts and hand parameters generated by the previous component. We incorporate multiple aspects of hand representation, including 3D shapes and joint-level finger positions, orientations and articulations, for robust learning and reliable performance during inference. We conduct extensive quantitative and qualitative experiments and perform user studies to demonstrate the efficacy of our method in generating images with high-quality hands.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。
一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。
現実的な手で画像を生成するために,HanDiffuserと呼ばれる新しい拡散型アーキテクチャを提案する。
HanDiffuserは、入力テキストプロンプトからSMPL-BodyとMANO-Handパラメータを生成するためのText-to-Hand-Params拡散モデルと、以前のコンポーネントが生成したプロンプトとハンドパラメータを条件に画像の合成を行うText-Guided Hand-Params-to-Image拡散モデルである。
3次元形状や関節レベルの指の位置,方向,調音など,手指表現の複数の側面を取り入れて,推論時の頑健な学習と信頼性向上を実現した。
そこで我々は,高品位手による画像生成において,広範に定量的かつ定性的な実験を行い,本手法の有効性を実証するためにユーザスタディを実施している。
関連論文リスト
- Hand1000: Generating Realistic Hands from Text with Only 1,000 Images [29.562925199318197]
本論文では,目標ジェスチャーによる現実的な手動画像の生成を可能にするHand1000という新しい手法を提案する。
Hand1000の訓練は3つの段階に分けられ、第1段階はモデルによる手解剖学の理解を高めることを目的としている。
テキスト・ツー・ハンド画像生成に特化して設計された最初の公開データセットを構築した。
論文 参考訳(メタデータ) (2024-08-28T00:54:51Z) - RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance [41.213241942526935]
拡散モデルは高品質な人間の画像を生成することができるが、それらの応用は正しい構造を持つ手を生成する不安定性によって制限される。
共役構造とスタイルガイダンスの助けを借りて手領域を洗練するための条件付き拡散型フレームワーク RHanDS を提案する。
実験の結果,RHanDSは従来の手法と比較して手の構造とスタイルを効果的に洗練できることがわかった。
論文 参考訳(メタデータ) (2024-04-22T08:44:34Z) - HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions [68.28684509445529]
HandBoosterは、データの多様性を向上し、3Dハンド・ミーシュ・リコンストラクションのパフォーマンスを向上する新しいアプローチである。
まず,多様な手やポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築した。
そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。
論文 参考訳(メタデータ) (2024-03-27T13:56:08Z) - Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation [29.79050316749927]
ポーズ条件付き人体画像生成に新たなアプローチを導入し,その過程を2段階に分けた。
両ステージの結果をコヒーレントな方法で組み合わせた第2段階のハンドディテールを維持するために, 新規なブレンディング技術が導入された。
提案手法は生成した手の品質を向上するだけでなく、ポーズ条件付き人体画像生成の能力を向上させるとともに、手ポーズの制御も改善する。
論文 参考訳(メタデータ) (2024-03-15T23:31:41Z) - Annotated Hands for Generative Models [17.494997005870754]
GANや拡散モデルのような生成モデルは印象的な画像生成能力を示している。
本稿では,手動画像作成能力を大幅に向上する生成モデルのための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-26T18:57:54Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting [72.95232302438207]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:52:08Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z) - Im2Hands: Learning Attentive Implicit Representation of Interacting
Two-Hand Shapes [58.551154822792284]
Implicit Two Hands (Im2Hands) は、2つの相互作用する手の最初の暗黙の表現である。
Im2Handsは、両手と手と手と画像のコヒーレンシーの高い2つの手のきめ細かい幾何学を生成することができる。
両手再建におけるIm2Handsの有効性を, 関連手法と比較して実験的に実証した。
論文 参考訳(メタデータ) (2023-02-28T06:38:25Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。