論文の概要: Multi-View Consistent Human Image Customization via In-Context Learning
- arxiv url: http://arxiv.org/abs/2511.00293v1
- Date: Fri, 31 Oct 2025 22:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.710042
- Title: Multi-View Consistent Human Image Customization via In-Context Learning
- Title(参考訳): インコンテキスト学習によるマルチビュー一貫性人間の画像カスタマイズ
- Authors: Hengjia Li, Jianjin Xu, Keli Cheng, Lei Wang, Ning Bi, Boxi Wu, Fernando De la Torre, Deng Cai,
- Abstract要約: PersonalViewは、100のトレーニングサンプルで既存のモデルでマルチビュー生成機能を取得することができる。
我々は、PersonalViewの多視点整合性、テキストアライメント、アイデンティティの類似性、視覚的品質を評価し、近年のベースラインとマルチビューカスタマイズの可能性を比較した。
- 参考スコア(独自算出の注目度): 62.83302682808891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in personalized generative models demonstrate impressive results in creating identity-consistent images of the same person under diverse settings. Yet, we note that most methods cannot control the viewpoint of the generated image, nor generate consistent multiple views of the person. To address this problem, we propose a lightweight adaptation method, PersonalView, capable of enabling an existing model to acquire multi-view generation capability with as few as 100 training samples. PersonalView consists of two key components: First, we design a conditioning architecture to take advantage of the in-context learning ability of the pre-trained diffusion transformer. Second, we preserve the original generative ability of the pretrained model with a new Semantic Correspondence Alignment Loss. We evaluate the multi-view consistency, text alignment, identity similarity, and visual quality of PersonalView and compare it to recent baselines with potential capability of multi-view customization. PersonalView significantly outperforms baselines trained on a large corpus of multi-view data with only 100 training samples.
- Abstract(参考訳): パーソナライズされた生成モデルの最近の進歩は、多様な設定下で同一人物のアイデンティティ一貫性のある画像を作成するという印象的な結果を示している。
しかし、ほとんどの手法では、生成した画像の視点を制御できず、かつ、一貫した複数の人物の視点を生成できない。
この問題に対処するために,100個のトレーニングサンプルで既存のモデルをマルチビュー生成できる軽量適応手法であるPersonalViewを提案する。
PersonalViewは2つの重要なコンポーネントから構成される: まず、事前訓練された拡散変換器のコンテキスト内学習能力を活用するための条件付きアーキテクチャを設計する。
第2に,新たにセマンティック対応アライメントロス(Semantic Cor correspondence Alignment Loss)を導入した事前学習モデルのオリジナル生成能力を保存した。
我々は、PersonalViewの多視点整合性、テキストアライメント、アイデンティティの類似性、視覚的品質を評価し、近年のベースラインとマルチビューカスタマイズの可能性を比較した。
PersonalViewは、100のトレーニングサンプルだけで、大規模なマルチビューデータコーパスでトレーニングされたベースラインを大幅に上回る。
関連論文リスト
- MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion [24.513096225720854]
本稿では,複数視点のポーズ制御とカスタマイズを共同で実現することを目的とした,新しいタスクであるマルチビューカスタマイズを提案する。
MVCustomは,多視点の一貫性とカスタマイズの整合性の両方を実現するために設計された,新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-10-15T16:00:26Z) - Per-Query Visual Concept Learning [32.045160884721646]
パーソナライゼーションのステップを追加することで,既存の手法の多くを大幅に拡張できることを示す。
具体的には、以前アイデンティティをキャプチャするために設計されたPDM機能を活用して、セマンティックな類似性を改善する方法を示しています。
論文 参考訳(メタデータ) (2025-08-12T16:07:27Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2025-03-24T16:32:17Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2024-11-18T16:33:52Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition [47.07564907486087]
近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
論文 参考訳(メタデータ) (2024-02-23T18:55:09Z) - Generalized Multi-view Shared Subspace Learning using View Bootstrapping [43.027427742165095]
マルチビュー学習の主な目的は、下流学習タスクを改善するために、オブジェクト/イベントのクラスの複数の並列ビューに共通する情報をモデル化することである。
本稿では,多視点相関に基づくニューラルな手法を提案する。
音声認識、3次元オブジェクト分類、ポーズ不変顔認識の実験は、多数のビューをモデル化するためのビューブートストラップの堅牢性を示している。
論文 参考訳(メタデータ) (2020-05-12T20:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。