Fugu-MT 論文翻訳(概要): HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances

論文の概要: HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances

arxiv url: http://arxiv.org/abs/2403.01693v1
Date: Mon, 4 Mar 2024 03:00:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 20:16:57.643582
Title: HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances
Title（参考訳）: HanDiffuser:リアルな手触りでテキストから画像生成
Authors: Supreeth Narasimhaswamy, Uttaran Bhattacharya, Xiang Chen, Ishita Dasgupta, Saayan Mitra, Minh Hoai
Abstract要約: テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。そこで我々はHanDiffuserという新しい拡散型アーキテクチャを提案する。
参考スコア（独自算出の注目度）: 36.55820649379848
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image generative models can generate high-quality humans, but realism is lost when generating hands. Common artifacts include irregular hand poses, shapes, incorrect numbers of fingers, and physically implausible finger orientations. To generate images with realistic hands, we propose a novel diffusion-based architecture called HanDiffuser that achieves realism by injecting hand embeddings in the generative process. HanDiffuser consists of two components: a Text-to-Hand-Params diffusion model to generate SMPL-Body and MANO-Hand parameters from input text prompts, and a Text-Guided Hand-Params-to-Image diffusion model to synthesize images by conditioning on the prompts and hand parameters generated by the previous component. We incorporate multiple aspects of hand representation, including 3D shapes and joint-level finger positions, orientations and articulations, for robust learning and reliable performance during inference. We conduct extensive quantitative and qualitative experiments and perform user studies to demonstrate the efficacy of our method in generating images with high-quality hands.
Abstract（参考訳）: テキストから画像への生成モデルは高品質な人間を生成できるが、手を生成すると現実主義は失われる。一般的なアーティファクトは、不規則な手のポーズ、形、不正確な指の数、物理的に目立たない指の向きなどである。リアルな手による画像を生成するために, 生成過程に手埋め込みを注入することで現実感を実現する, handiffuser と呼ばれる新しい拡散ベースアーキテクチャを提案する。 HanDiffuserは、入力テキストプロンプトからSMPL-BodyとMANO-Handパラメータを生成するためのText-to-Hand-Params拡散モデルと、以前のコンポーネントが生成したプロンプトとハンドパラメータを条件に画像の合成を行うText-Guided Hand-Params-to-Image拡散モデルである。 3次元形状や関節レベルの指の位置,方向,調音など,手指表現の複数の側面を取り入れて,推論時の頑健な学習と信頼性向上を実現した。定量的・定性的な広範囲な実験を行い,高品位手による画像生成における本手法の有効性を実証する。

関連論文リスト

MGHanD: Multi-modal Guidance for authentic Hand Diffusion [25.887930576638293]
MGHanDは、現実的な人間の手を生成する際の永続的な課題に対処する。実画像と生成された画像とキャプションのペアからなるデータセット上で訓練された識別器を用いる。また,手からより詳細な指示への方向学習を行うLoRAアダプタによるテキストガイダンスも採用している。
論文参考訳（メタデータ） (2025-03-11T07:51:47Z)
FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation [11.843140646170458]
単手画像と双手画像のための大規模ドメイン固有拡散モデルFoundHandを提案する。 2Dキーポイントとセグメンテーションマスクアノテーションを備えた大規模ハンドデータセットであるFoundHand-10Mを使用している。本モデルでは,手の動きを再現したり,手の動きを伝達したり,新しいビューを合成したりといった,中核的な機能を示す。
論文参考訳（メタデータ） (2024-12-03T18:58:19Z)
Hand1000: Generating Realistic Hands from Text with Only 1,000 Images [29.562925199318197]
本論文では,目標ジェスチャーによる現実的な手動画像の生成を可能にするHand1000という新しい手法を提案する。 Hand1000の訓練は3つの段階に分けられ、第1段階はモデルによる手解剖学の理解を高めることを目的としている。テキスト・ツー・ハンド画像生成に特化して設計された最初の公開データセットを構築した。
論文参考訳（メタデータ） (2024-08-28T00:54:51Z)
RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance [41.213241942526935]
拡散モデルは高品質な人間の画像を生成することができるが、それらの応用は正しい構造を持つ手を生成する不安定性によって制限される。共役構造とスタイルガイダンスの助けを借りて手領域を洗練するための条件付き拡散型フレームワーク RHanDS を提案する。実験の結果,RHanDSは従来の手法と比較して手の構造とスタイルを効果的に洗練できることがわかった。
論文参考訳（メタデータ） (2024-04-22T08:44:34Z)
HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions [68.28684509445529]
HandBoosterは、データの多様性を向上し、3Dハンド・ミーシュ・リコンストラクションのパフォーマンスを向上する新しいアプローチである。まず,多様な手やポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築した。そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。
論文参考訳（メタデータ） (2024-03-27T13:56:08Z)
Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation [29.79050316749927]
ポーズ条件付き人体画像生成に新たなアプローチを導入し,その過程を2段階に分けた。両ステージの結果をコヒーレントな方法で組み合わせた第2段階のハンドディテールを維持するために, 新規なブレンディング技術が導入された。提案手法は生成した手の品質を向上するだけでなく、ポーズ条件付き人体画像生成の能力を向上させるとともに、手ポーズの制御も改善する。
論文参考訳（メタデータ） (2024-03-15T23:31:41Z)
Annotated Hands for Generative Models [17.494997005870754]
GANや拡散モデルのような生成モデルは印象的な画像生成能力を示している。本稿では,手動画像作成能力を大幅に向上する生成モデルのための新しいトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-26T18:57:54Z)
BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文参考訳（メタデータ） (2023-12-13T07:30:19Z)
HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting [72.95232302438207]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文参考訳（メタデータ） (2023-11-29T08:52:08Z)
HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文参考訳（メタデータ） (2023-03-24T06:19:19Z)
Im2Hands: Learning Attentive Implicit Representation of Interacting Two-Hand Shapes [58.551154822792284]
Implicit Two Hands (Im2Hands) は、2つの相互作用する手の最初の暗黙の表現である。 Im2Handsは、両手と手と手と画像のコヒーレンシーの高い2つの手のきめ細かい幾何学を生成することができる。両手再建におけるIm2Handsの有効性を, 関連手法と比較して実験的に実証した。
論文参考訳（メタデータ） (2023-02-28T06:38:25Z)
HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文参考訳（メタデータ） (2022-11-11T14:30:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。