論文の概要: PositionIC: Unified Position and Identity Consistency for Image Customization
- arxiv url: http://arxiv.org/abs/2507.13861v1
- Date: Fri, 18 Jul 2025 12:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.281404
- Title: PositionIC: Unified Position and Identity Consistency for Image Customization
- Title(参考訳): PositionIC:画像カスタマイズのための統一位置とアイデンティティ一貫性
- Authors: Junjie Hu, Tianyang Han, Kai Ma, Jialin Gao, Hao Dou, Song Yang, Xianhua He, Jianhui Zhang, Junfeng Luo, Xiaoming Wei, Wenqiang Zhang,
- Abstract要約: 最近の被写体駆動画像のカスタマイズは、忠実度において顕著な進歩を遂げているが、細粒度な実体レベルの空間制御はいまだ解明されていない。
この制限は主に、正確な位置の手がかりとアイデンティティを結合するスケーラブルなデータセットが欠如しているためである。
マルチオブジェクトのカスタマイズのための位置とアイデンティティの整合性を実現する統合フレームワークであるPlaceICを導入する。
- 参考スコア(独自算出の注目度): 34.92106296454162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent subject-driven image customization has achieved significant advancements in fidelity, yet fine-grained entity-level spatial control remains elusive, hindering the broader real-world application. This limitation is mainly attributed to scalable datasets that bind identity with precise positional cues are absent. To this end, we introduce PositionIC, a unified framework that enforces position and identity consistency for multi-subject customization. We construct a scalable synthesis pipeline that employs a bidirectional generation paradigm to eliminate subject drift and maintain semantic coherence. On top of these data, we design a lightweight positional modulation layer that decouples spatial embeddings among subjects, enabling independent, accurate placement while preserving visual fidelity. Extensive experiments demonstrate that our approach can achieve precise spatial control while maintaining high consistency in image customization task. PositionIC paves the way for controllable, high-fidelity image customization in open-world, multi-entity scenarios and will be released to foster further research.
- Abstract(参考訳): 最近の被写体駆動画像のカスタマイズは、忠実度において顕著な進歩を遂げているが、細粒度の実体レベルの空間制御は、いまだ解明されていないため、より広い現実世界の応用を妨げている。
この制限は主に、正確な位置の手がかりとアイデンティティを結合するスケーラブルなデータセットが欠如しているためである。
この目的のために,多目的カスタマイズのための位置とアイデンティティの整合性を実現する統合フレームワークであるPlaceICを導入する。
対象のドリフトを排除し,セマンティックコヒーレンスを維持するために,双方向生成パラダイムを用いたスケーラブルな合成パイプラインを構築した。
これらのデータに基づいて,被験者間の空間埋め込みを分離する軽量な位置変調層を設計し,視覚的忠実さを保ちながら,独立して正確な配置を可能にする。
画像カスタマイズタスクにおいて,高整合性を維持しながら精度の高い空間制御を実現することができることを示す。
PositionICは、オープンワールド、マルチエンテントのシナリオにおいて、制御可能で高忠実なイメージカスタマイズを実現する方法を舗装し、さらなる研究を促進するためにリリースする。
関連論文リスト
- IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
IoUCertは、アンカーベースのオブジェクト検出アーキテクチャにおいて、これらのボトルネックを克服するために設計された、新しい形式的検証フレームワークである。
本手法は, SSD, YOLOv2, YOLOv3など, 現実的なアンカーベースモデルの各種入力摂動に対するロバスト性検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models [54.564740558030245]
UCMは、長期記憶と正確なカメラ制御をタイムアウェアな位置符号化変換機構を介して統合する新しいフレームワークである。
我々はまた、ポイントクラウドベースのレンダリングを利用したスケーラブルなデータキュレーション戦略を導入し、シーンの再考をシミュレートする。
論文 参考訳(メタデータ) (2026-02-26T12:54:46Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - PosBridge: Multi-View Positional Embedding Transplant for Identity-Aware Image Editing [6.102786823233576]
ローカライズされた被写体駆動画像編集は、ユーザが指定したオブジェクトをシームレスにターゲットシーンに統合することを目的としている。
PosBridgeは、カスタムオブジェクトを挿入するための効率的で柔軟なフレームワークである。
PosBridgeは、構造整合性、外観の忠実さ、計算効率において、主流のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-08-24T11:09:01Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [66.97034863216892]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Create Anything Anywhere: Layout-Controllable Personalized Diffusion Model for Multiple Subjects [13.980211126764349]
LCP-Diffusionは、被写体識別をフレキシブルなレイアウトガイダンスと統合した新しいフレームワークである。
実験により、LCP拡散はアイデンティティ保存とレイアウト制御の両面で優れていることが確認された。
論文 参考訳(メタデータ) (2025-05-27T08:57:07Z) - HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation [27.770224730465237]
画像生成のための階層的クロスモーダルアライメント(HCMA)フレームワークを提案する。
HCMAは2つのアライメントモジュールを各拡散サンプリングステップに統合する。
MS-COCO 2014検証セットの実験では、HCMAが最先端のベースラインを超えたことが示されている。
論文 参考訳(メタデータ) (2025-05-10T05:02:58Z) - DreamO: A Unified Framework for Image Customization [23.11440970488944]
複数の条件をシームレスに統合しながら、幅広いタスクをサポートするために設計された画像カスタマイズフレームワークであるDreamOを紹介する。
具体的には、DreamOは拡散変換器(DiT)フレームワークを使用して、異なるタイプの入力を均一に処理する。
ベースライン整合性を確立するための限られたデータを伴う単純なタスクに焦点を当てた初期段階、カスタマイズ能力を包括的に強化するためのフルスケールトレーニング段階、低品質データによって導入された品質バイアスを補正するための最終品質アライメント段階の3段階からなるプログレッシブトレーニング戦略を採用する。
論文 参考訳(メタデータ) (2025-04-23T17:41:44Z) - Spatial Structure Constraints for Weakly Supervised Semantic
Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。
注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文 参考訳(メタデータ) (2024-01-20T05:25:25Z) - A Compact and Semantic Latent Space for Disentangled and Controllable
Image Editing [4.8201607588546]
本稿では,StyleGANの潜在空間を再編成するオートエンコーダを提案する。
提案手法は,同一性に関して元の画像に対する忠実さを維持しつつ,競合する手法よりも不整合性が高いことを示す。
論文 参考訳(メタデータ) (2023-12-13T16:18:45Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - CustomNet: Zero-shot Object Customization with Variable-Viewpoints in
Text-to-Image Diffusion Models [85.69959024572363]
CustomNetは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ、新しいオブジェクトカスタマイズアプローチである。
テキスト記述や特定のユーザ定義画像による位置制御とフレキシブルな背景制御を実現するための繊細な設計を導入する。
本手法は,テスト時間最適化を伴わないゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
論文 参考訳(メタデータ) (2023-10-30T17:50:14Z) - Bi-level Feature Alignment for Versatile Image Translation and
Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。
忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。
本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T05:26:29Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。