Fugu-MT 論文翻訳(概要): UniMC: Taming Diffusion Transformer for Unified Keypoint-Guided Multi-Class Image Generation

論文の概要: UniMC: Taming Diffusion Transformer for Unified Keypoint-Guided Multi-Class Image Generation

arxiv url: http://arxiv.org/abs/2507.02713v1
Date: Thu, 03 Jul 2025 15:27:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-04 15:37:16.500336
Title: UniMC: Taming Diffusion Transformer for Unified Keypoint-Guided Multi-Class Image Generation
Title（参考訳）: UniMC: キーポイント誘導型マルチクラス画像生成のためのターミング拡散変換器
Authors: Qin Guo, Ailing Zeng, Dongxu Yue, Ceyuan Yang, Yang Cao, Hanzhong Guo, Fei Shen, Wei Liu, Xihui Liu, Dan Xu,
Abstract要約: We developed a controllable multi-class image generation framework called UniMC。また,キーポイント誘導型ヒト・動物画像生成のための大規模,高品質,多種多様なデータセットであるHAIG-2.9Mを提案する。
参考スコア（独自算出の注目度）: 32.29747762104421
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although significant advancements have been achieved in the progress of keypoint-guided Text-to-Image diffusion models, existing mainstream keypoint-guided models encounter challenges in controlling the generation of more general non-rigid objects beyond humans (e.g., animals). Moreover, it is difficult to generate multiple overlapping humans and animals based on keypoint controls solely. These challenges arise from two main aspects: the inherent limitations of existing controllable methods and the lack of suitable datasets. First, we design a DiT-based framework, named UniMC, to explore unifying controllable multi-class image generation. UniMC integrates instance- and keypoint-level conditions into compact tokens, incorporating attributes such as class, bounding box, and keypoint coordinates. This approach overcomes the limitations of previous methods that struggled to distinguish instances and classes due to their reliance on skeleton images as conditions. Second, we propose HAIG-2.9M, a large-scale, high-quality, and diverse dataset designed for keypoint-guided human and animal image generation. HAIG-2.9M includes 786K images with 2.9M instances. This dataset features extensive annotations such as keypoints, bounding boxes, and fine-grained captions for both humans and animals, along with rigorous manual inspection to ensure annotation accuracy. Extensive experiments demonstrate the high quality of HAIG-2.9M and the effectiveness of UniMC, particularly in heavy occlusions and multi-class scenarios.
Abstract（参考訳）: キーポイント誘導型テキスト・画像拡散モデルの進展は著しい進歩を遂げているが、既存の主流のキーポイント誘導型モデルは、人間以外のより一般的な非剛体オブジェクト(動物など)の生成を制御する上での課題に直面している。また、キーポイント制御のみで複数の重なり合う人間や動物を生成することは困難である。これらの課題は、既存のコントロール可能なメソッド固有の制限と、適切なデータセットの欠如という、2つの主な側面から生じます。まず、制御可能なマルチクラス画像生成の統一化を図るために、UniMCというDiTベースのフレームワークを設計する。 UniMCはインスタンスレベルとキーポイントレベルの条件をコンパクトトークンに統合し、クラス、バウンディングボックス、キーポイント座標などの属性を組み込む。このアプローチは、スケルトンイメージを条件として依存するため、インスタンスとクラスを区別するのに苦労した以前のメソッドの制限を克服する。第二にHAIG-2.9Mは、キーポイント誘導による人・動物の画像生成のために設計された大規模で高品質で多様なデータセットである。 HAIG-2.9Mは786Kイメージと2.9Mインスタンスを含んでいる。このデータセットは、キーポイント、バウンディングボックス、人間と動物の両方のためのきめ細かいキャプションなどの広範囲なアノテーションと、アノテーションの精度を保証する厳密な手動検査を備えている。大規模な実験では、HAIG-2.9Mの高品質さとUniMCの有効性、特に重閉塞やマルチクラスシナリオで実証されている。

関連論文リスト

PoseBH: Prototypical Multi-Dataset Training Beyond Human Pose Estimation [38.19172513799442]
PoseBHは、ポーズ推定のための新しいマルチデータセットトレーニングフレームワークである。キーポイントの不均一性と2つのキーテクニックによる限定的な監視に取り組む。我々の学習キーポイント埋め込みは手形状推定(InterHand2.6M)と人体形状推定(DPW)に効果的に伝達される。
論文参考訳（メタデータ） (2025-05-23T04:58:20Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。 OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。 ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文参考訳（メタデータ） (2024-07-08T12:28:56Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文参考訳（メタデータ） (2023-10-08T07:42:41Z)
Controllable Image Generation via Collage Representations [31.456445433105415]
ミラー・アンド・マッチングシーン(M&Ms)とは、コラージュ内の異なる要素の外観的特徴と空間的位置を条件とした、逆向きに訓練された生成画像モデルからなるアプローチである。 M&Mは、画質とサンプルの多様性の点で非常に競争力がありながら、きめ細かなシーン制御性の観点から、ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-26T17:58:39Z)
Semi-supervised Keypoint Localization [12.37129078618206]
キーポイントのヒートマップを同時に学習し、不変なキーポイント表現を半監督的に提示することを提案する。提案手法は,ヒトおよび動物の身体ランドマークの定位に関するいくつかのベンチマークにおいて,従来の手法を著しく上回っている。
論文参考訳（メタデータ） (2021-01-20T06:23:08Z)
Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。 MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文参考訳（メタデータ） (2020-06-15T18:07:44Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。