論文の概要: PositionIC: Unified Position and Identity Consistency for Image Customization
- arxiv url: http://arxiv.org/abs/2507.13861v3
- Date: Tue, 05 Aug 2025 03:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.664618
- Title: PositionIC: Unified Position and Identity Consistency for Image Customization
- Title(参考訳): PositionIC:画像カスタマイズのための統一位置とアイデンティティ一貫性
- Authors: Junjie Hu, Tianyang Han, Kai Ma, Jialin Gao, Hao Dou, Song Yang, Xianhua He, Jianhui Zhang, Junfeng Luo, Xiaoming Wei, Wenqiang Zhang,
- Abstract要約: 最近の被写体駆動画像のカスタマイズは、忠実度において顕著な進歩を遂げているが、細粒度のインスタンスレベルの空間制御はいまだ解明されていない。
この制限は主に、アイデンティティと正確な位置の手がかりを結合するスケーラブルなデータセットがないためである。
マルチオブジェクトのカスタマイズのための位置とアイデンティティの整合性を実現する統合フレームワークであるPlaceICを導入する。
- 参考スコア(独自算出の注目度): 34.92106296454162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent subject-driven image customization has achieved significant advancements in fidelity, yet fine-grained instance-level spatial control remains elusive, hindering broader real-world application. This limitation is mainly attributed to the absence of scalable datasets that bind identity with precise positional cues. To this end, we introduce PositionIC, a unified framework that enforces position and identity consistency for multi-subject customization. We construct a scalable synthesis pipeline that employs a bidirectional generation paradigm to eliminate subject drift and maintain semantic coherence. On top of these data, we design a lightweight positional modulation operation that decouples spatial embeddings among subjects, enabling independent, accurate placement while preserving visual fidelity. Extensive experiments demonstrate that our approach can achieve precise spatial control while maintaining high consistency in image customization tasks. PositionIC paves the way for controllable, high-fidelity image customization in open-world, multi-entity scenarios and will be released to foster further research.
- Abstract(参考訳): 最近の被写体駆動画像のカスタマイズは、忠実度において顕著な進歩を遂げているが、細粒度のインスタンスレベルの空間制御は、いまだ解明されていないため、より広い現実世界の応用を妨げる。
この制限は主に、アイデンティティと正確な位置の手がかりを結合するスケーラブルなデータセットがないためである。
この目的のために,多目的カスタマイズのための位置とアイデンティティの整合性を実現する統合フレームワークであるPlaceICを導入する。
対象のドリフトを排除し,セマンティックコヒーレンスを維持するために,双方向生成パラダイムを用いたスケーラブルな合成パイプラインを構築した。
これらのデータに基づいて、被験者間の空間埋め込みを分離し、視覚的忠実性を維持しつつ、独立して正確な配置を可能にする軽量な位置変調操作を設計する。
画像カスタマイズタスクの高整合性を維持しつつ,空間制御の精度を向上できることを示す。
PositionICは、オープンワールド、マルチエンテントのシナリオにおいて、制御可能で高忠実なイメージカスタマイズを実現する方法を舗装し、さらなる研究を促進するためにリリースする。
関連論文リスト
- Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [66.97034863216892]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Create Anything Anywhere: Layout-Controllable Personalized Diffusion Model for Multiple Subjects [13.980211126764349]
LCP-Diffusionは、被写体識別をフレキシブルなレイアウトガイダンスと統合した新しいフレームワークである。
実験により、LCP拡散はアイデンティティ保存とレイアウト制御の両面で優れていることが確認された。
論文 参考訳(メタデータ) (2025-05-27T08:57:07Z) - HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation [27.770224730465237]
画像生成のための階層的クロスモーダルアライメント(HCMA)フレームワークを提案する。
HCMAは2つのアライメントモジュールを各拡散サンプリングステップに統合する。
MS-COCO 2014検証セットの実験では、HCMAが最先端のベースラインを超えたことが示されている。
論文 参考訳(メタデータ) (2025-05-10T05:02:58Z) - DreamO: A Unified Framework for Image Customization [23.11440970488944]
複数の条件をシームレスに統合しながら、幅広いタスクをサポートするために設計された画像カスタマイズフレームワークであるDreamOを紹介する。
具体的には、DreamOは拡散変換器(DiT)フレームワークを使用して、異なるタイプの入力を均一に処理する。
ベースライン整合性を確立するための限られたデータを伴う単純なタスクに焦点を当てた初期段階、カスタマイズ能力を包括的に強化するためのフルスケールトレーニング段階、低品質データによって導入された品質バイアスを補正するための最終品質アライメント段階の3段階からなるプログレッシブトレーニング戦略を採用する。
論文 参考訳(メタデータ) (2025-04-23T17:41:44Z) - Spatial Structure Constraints for Weakly Supervised Semantic
Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。
注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文 参考訳(メタデータ) (2024-01-20T05:25:25Z) - A Compact and Semantic Latent Space for Disentangled and Controllable
Image Editing [4.8201607588546]
本稿では,StyleGANの潜在空間を再編成するオートエンコーダを提案する。
提案手法は,同一性に関して元の画像に対する忠実さを維持しつつ,競合する手法よりも不整合性が高いことを示す。
論文 参考訳(メタデータ) (2023-12-13T16:18:45Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - CustomNet: Zero-shot Object Customization with Variable-Viewpoints in
Text-to-Image Diffusion Models [85.69959024572363]
CustomNetは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ、新しいオブジェクトカスタマイズアプローチである。
テキスト記述や特定のユーザ定義画像による位置制御とフレキシブルな背景制御を実現するための繊細な設計を導入する。
本手法は,テスト時間最適化を伴わないゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
論文 参考訳(メタデータ) (2023-10-30T17:50:14Z) - Bi-level Feature Alignment for Versatile Image Translation and
Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。
忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。
本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T05:26:29Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。