論文の概要: UniMC: Taming Diffusion Transformer for Unified Keypoint-Guided Multi-Class Image Generation
- arxiv url: http://arxiv.org/abs/2507.02713v1
- Date: Thu, 03 Jul 2025 15:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.500336
- Title: UniMC: Taming Diffusion Transformer for Unified Keypoint-Guided Multi-Class Image Generation
- Title(参考訳): UniMC: キーポイント誘導型マルチクラス画像生成のためのターミング拡散変換器
- Authors: Qin Guo, Ailing Zeng, Dongxu Yue, Ceyuan Yang, Yang Cao, Hanzhong Guo, Fei Shen, Wei Liu, Xihui Liu, Dan Xu,
- Abstract要約: We developed a controllable multi-class image generation framework called UniMC。
また,キーポイント誘導型ヒト・動物画像生成のための大規模,高品質,多種多様なデータセットであるHAIG-2.9Mを提案する。
- 参考スコア(独自算出の注目度): 32.29747762104421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although significant advancements have been achieved in the progress of keypoint-guided Text-to-Image diffusion models, existing mainstream keypoint-guided models encounter challenges in controlling the generation of more general non-rigid objects beyond humans (e.g., animals). Moreover, it is difficult to generate multiple overlapping humans and animals based on keypoint controls solely. These challenges arise from two main aspects: the inherent limitations of existing controllable methods and the lack of suitable datasets. First, we design a DiT-based framework, named UniMC, to explore unifying controllable multi-class image generation. UniMC integrates instance- and keypoint-level conditions into compact tokens, incorporating attributes such as class, bounding box, and keypoint coordinates. This approach overcomes the limitations of previous methods that struggled to distinguish instances and classes due to their reliance on skeleton images as conditions. Second, we propose HAIG-2.9M, a large-scale, high-quality, and diverse dataset designed for keypoint-guided human and animal image generation. HAIG-2.9M includes 786K images with 2.9M instances. This dataset features extensive annotations such as keypoints, bounding boxes, and fine-grained captions for both humans and animals, along with rigorous manual inspection to ensure annotation accuracy. Extensive experiments demonstrate the high quality of HAIG-2.9M and the effectiveness of UniMC, particularly in heavy occlusions and multi-class scenarios.
- Abstract(参考訳): キーポイント誘導型テキスト・画像拡散モデルの進展は著しい進歩を遂げているが、既存の主流のキーポイント誘導型モデルは、人間以外のより一般的な非剛体オブジェクト(動物など)の生成を制御する上での課題に直面している。
また、キーポイント制御のみで複数の重なり合う人間や動物を生成することは困難である。
これらの課題は、既存のコントロール可能なメソッド固有の制限と、適切なデータセットの欠如という、2つの主な側面から生じます。
まず、制御可能なマルチクラス画像生成の統一化を図るために、UniMCというDiTベースのフレームワークを設計する。
UniMCはインスタンスレベルとキーポイントレベルの条件をコンパクトトークンに統合し、クラス、バウンディングボックス、キーポイント座標などの属性を組み込む。
このアプローチは、スケルトンイメージを条件として依存するため、インスタンスとクラスを区別するのに苦労した以前のメソッドの制限を克服する。
第二にHAIG-2.9Mは、キーポイント誘導による人・動物の画像生成のために設計された大規模で高品質で多様なデータセットである。
HAIG-2.9Mは786Kイメージと2.9Mインスタンスを含んでいる。
このデータセットは、キーポイント、バウンディングボックス、人間と動物の両方のためのきめ細かいキャプションなどの広範囲なアノテーションと、アノテーションの精度を保証する厳密な手動検査を備えている。
大規模な実験では、HAIG-2.9Mの高品質さとUniMCの有効性、特に重閉塞やマルチクラスシナリオで実証されている。
関連論文リスト
- PoseBH: Prototypical Multi-Dataset Training Beyond Human Pose Estimation [38.19172513799442]
PoseBHは、ポーズ推定のための新しいマルチデータセットトレーニングフレームワークである。
キーポイントの不均一性と2つのキーテクニックによる限定的な監視に取り組む。
我々の学習キーポイント埋め込みは手形状推定(InterHand2.6M)と人体形状推定(DPW)に効果的に伝達される。
論文 参考訳(メタデータ) (2025-05-23T04:58:20Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。
MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。
本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2020-06-15T18:07:44Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。