論文の概要: Hand1000: Generating Realistic Hands from Text with Only 1,000 Images
- arxiv url: http://arxiv.org/abs/2408.15461v3
- Date: Sat, 21 Dec 2024 01:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:51:25.907986
- Title: Hand1000: Generating Realistic Hands from Text with Only 1,000 Images
- Title(参考訳): Hand1000ハンズオン:1000枚の画像だけでテキストからリアルな手を作る
- Authors: Haozhuo Zhang, Bin Zhu, Yu Cao, Yanbin Hao,
- Abstract要約: 本論文では,目標ジェスチャーによる現実的な手動画像の生成を可能にするHand1000という新しい手法を提案する。
Hand1000の訓練は3つの段階に分けられ、第1段階はモデルによる手解剖学の理解を高めることを目的としている。
テキスト・ツー・ハンド画像生成に特化して設計された最初の公開データセットを構築した。
- 参考スコア(独自算出の注目度): 29.562925199318197
- License:
- Abstract: Text-to-image generation models have achieved remarkable advancements in recent years, aiming to produce realistic images from textual descriptions. However, these models often struggle with generating anatomically accurate representations of human hands. The resulting images frequently exhibit issues such as incorrect numbers of fingers, unnatural twisting or interlacing of fingers, or blurred and indistinct hands. These issues stem from the inherent complexity of hand structures and the difficulty in aligning textual descriptions with precise visual depictions of hands. To address these challenges, we propose a novel approach named Hand1000 that enables the generation of realistic hand images with target gesture using only 1,000 training samples. The training of Hand1000 is divided into three stages with the first stage aiming to enhance the model's understanding of hand anatomy by using a pre-trained hand gesture recognition model to extract gesture representation. The second stage further optimizes text embedding by incorporating the extracted hand gesture representation, to improve alignment between the textual descriptions and the generated hand images. The third stage utilizes the optimized embedding to fine-tune the Stable Diffusion model to generate realistic hand images. In addition, we construct the first publicly available dataset specifically designed for text-to-hand image generation. Based on the existing hand gesture recognition dataset, we adopt advanced image captioning models and LLaMA3 to generate high-quality textual descriptions enriched with detailed gesture information. Extensive experiments demonstrate that Hand1000 significantly outperforms existing models in producing anatomically correct hand images while faithfully representing other details in the text, such as faces, clothing, and colors.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ生成モデルは,テキスト記述からリアルなイメージを作り出すことを目的として,顕著な進歩を遂げている。
しかしながら、これらのモデルは、しばしば解剖学的に正確な人間の手を表現することに苦労する。
結果として得られた画像は、しばしば不正確な指の数、不自然なねじれや指のインターレース、ぼやけた不明瞭な手などの問題を示す。
これらの問題は、手の構造が本質的に複雑であることと、手の記述を正確に視覚的に表現することの難しさに起因している。
これらの課題に対処するために,1000個のトレーニングサンプルのみを用いて,目標ジェスチャーによる現実的な手画像の生成を可能にするHand1000という新しいアプローチを提案する。
Hand1000の訓練は、3つの段階に分けられており、第1段階は、事前訓練された手振り認識モデルを用いて、手振り表現を抽出することにより、手振りの解剖学的理解を高めることを目的としている。
第2段階はさらに、抽出した手の動き表現を組み込んでテキスト埋め込みを最適化し、テキスト記述と生成された手画像とのアライメントを改善する。
第3段階では、最適化された埋め込みを使用して、安定拡散モデルを微調整し、現実的な手画像を生成する。
さらに,テキスト・ツー・ハンド画像生成に特化して設計された最初の公開データセットを構築した。
既存のジェスチャー認識データセットに基づいて,高度な画像キャプションモデルとLLaMA3を用いて,詳細なジェスチャー情報に富んだ高品質なテキスト記述を生成する。
大規模な実験により、Hand1000は、顔、衣服、色などのテキストの他の詳細を忠実に表現しながら、解剖学的に正しい手画像を生成することで、既存のモデルよりも大幅に優れていることが示された。
関連論文リスト
- AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild [18.351368674337134]
AttentionHandはテキスト駆動による手動画像生成の新しい手法である。
3Dハンドラベルとよく整合した、さまざまな、そして多数の手動画像を生成することができる。
テキスト・ツー・ハンド画像生成モデル間で最先端を実現する。
論文 参考訳(メタデータ) (2024-07-25T13:29:32Z) - Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance [41.213241942526935]
拡散モデルは高品質な人間の画像を生成することができるが、それらの応用は正しい構造を持つ手を生成する不安定性によって制限される。
共役構造とスタイルガイダンスの助けを借りて手領域を洗練するための条件付き拡散型フレームワーク RHanDS を提案する。
実験の結果,RHanDSは従来の手法と比較して手の構造とスタイルを効果的に洗練できることがわかった。
論文 参考訳(メタデータ) (2024-04-22T08:44:34Z) - Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation [29.79050316749927]
ポーズ条件付き人体画像生成に新たなアプローチを導入し,その過程を2段階に分けた。
両ステージの結果をコヒーレントな方法で組み合わせた第2段階のハンドディテールを維持するために, 新規なブレンディング技術が導入された。
提案手法は生成した手の品質を向上するだけでなく、ポーズ条件付き人体画像生成の能力を向上させるとともに、手ポーズの制御も改善する。
論文 参考訳(メタデータ) (2024-03-15T23:31:41Z) - HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances [34.50137847908887]
テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。
一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。
そこで我々はHanDiffuserという新しい拡散型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-04T03:00:22Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting [72.95232302438207]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:52:08Z) - Text-Guided Synthesis of Eulerian Cinemagraphs [81.20353774053768]
テキスト記述からシネマグラフを作成する完全自動化された方法であるText2Cinemagraphを紹介する。
連続した動きと反復的なテクスチャを示す流れの川や漂流する雲などの流体要素のシネマグラフに焦点を当てる。
論文 参考訳(メタデータ) (2023-07-06T17:59:31Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。