論文の概要: DVI: Disentangling Semantic and Visual Identity for Training-Free Personalized Generation
- arxiv url: http://arxiv.org/abs/2512.18964v1
- Date: Mon, 22 Dec 2025 02:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.58234
- Title: DVI: Disentangling Semantic and Visual Identity for Training-Free Personalized Generation
- Title(参考訳): DVI:学習自由なパーソナライズ生成のための意味的・視覚的アイデンティティの分離
- Authors: Guandong Li, Yijun Ding,
- Abstract要約: 近年のアイデンティティのカスタマイズ手法は、照明、肌のテクスチャ、環境音といった視覚的コンテキストを無視することが多い。
DVI(Disentangled Visual-Identity)*は、アイデンティティを細粒度セマンティクスと粗粒度ビジュアルストリームに分解するフレームワークである。
実験により、DVIはパラメータの微調整なしに視覚的一貫性と大気の忠実度を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 10.474377498273205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent tuning-free identity customization methods achieve high facial fidelity but often overlook visual context, such as lighting, skin texture, and environmental tone. This limitation leads to ``Semantic-Visual Dissonance,'' where accurate facial geometry clashes with the input's unique atmosphere, causing an unnatural ``sticker-like'' effect. We propose **DVI (Disentangled Visual-Identity)**, a zero-shot framework that orthogonally disentangles identity into fine-grained semantic and coarse-grained visual streams. Unlike methods relying solely on semantic vectors, DVI exploits the inherent statistical properties of the VAE latent space, utilizing mean and variance as lightweight descriptors for global visual atmosphere. We introduce a **Parameter-Free Feature Modulation** mechanism that adaptively modulates semantic embeddings with these visual statistics, effectively injecting the reference's ``visual soul'' without training. Furthermore, a **Dynamic Temporal Granularity Scheduler** aligns with the diffusion process, prioritizing visual atmosphere in early denoising stages while refining semantic details later. Extensive experiments demonstrate that DVI significantly enhances visual consistency and atmospheric fidelity without parameter fine-tuning, maintaining robust identity preservation and outperforming state-of-the-art methods in IBench evaluations.
- Abstract(参考訳): 近年のチューニング不要なアイデンティティのカスタマイズ手法は、顔の忠実度が高いが、照明、肌のテクスチャ、環境音といった視覚的コンテキストを見落としていることが多い。
この制限は「セマンティック・ビジュアル・ディソナンス(Semantic-Visual Dissonance)」につながり、正確な顔形状が入力のユニークな雰囲気と衝突し、不自然な「ステッカーのような」効果を引き起こす。
DVI(Disentangled Visual-Identity)*は、直交的にアイデンティティを微粒なセマンティクスと粗粒なビジュアルストリームに分解するゼロショットフレームワークである。
意味ベクトルにのみ依存する手法とは異なり、DVIはVAE潜在空間の固有の統計特性を利用して、平均と分散をグローバルな視覚的雰囲気の軽量な記述子として利用している。
我々は,これらの視覚的統計量を用いて意味的埋め込みを適応的に修飾する**パラメータフリーな特徴変調*のメカニズムを導入し,訓練なしで参照の「視覚的魂」を効果的に注入する。
さらに、*Dynamic Temporal Granularity Scheduler**は拡散プロセスと整合し、後述のセマンティック詳細を精細化しながら、初期の認知段階における視覚的雰囲気を優先順位付けする。
広汎な実験により、DVIはパラメータの微調整なしに視覚的一貫性と大気の忠実度を著しく向上し、頑健なアイデンティティ保存を維持し、IBench評価における最先端の手法より優れていることが示された。
関連論文リスト
- V-Warper: Appearance-Consistent Video Diffusion Personalization via Value Warping [42.87624197744494]
V-Warperは、トランスフォーマーベースのビデオ拡散モデルのためのトレーニング不要な粗いパーソナライズフレームワークである。
追加のビデオトレーニングを必要とせずに、きめ細かいアイデンティティの忠実度を高める。
即時アライメントと動きのダイナミクスを保ちながら、外観の忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2025-12-13T16:05:52Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Audio-Driven Universal Gaussian Head Avatars [66.56656075831954]
本稿では,音声駆動型ユニバーサルフォトリアリスティックアバター合成法について紹介する。
個人に依存しない音声モデルと私たちの小説Universal Head Avatar Priorを組み合わせたものです。
我々の手法は、外観の詳細なモデリングとレンダリングを考慮に入れた最初の一般的なオーディオ駆動アバターモデルである。
論文 参考訳(メタデータ) (2025-09-23T12:46:43Z) - Revealing Latent Information: A Physics-inspired Self-supervised Pre-training Framework for Noisy and Sparse Events [25.348660233701708]
イベントカメラは、高時間分解能と広ダイナミックレンジでデータを記録する。
イベントデータは本質的にスパースでノイズが多く、主に明るさの変化を反映している。
本稿では,イベントデータ中の潜伏情報を完全に明らかにする自己教師付き事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T15:38:36Z) - Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [9.406760867809124]
本稿では,視覚入力構造を用いた拡張推論(VISER)を提案する。
VISERは、低レベルの空間構造を持つ視覚入力を増強する、シンプルで効果的な方法である。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models [56.84206059390887]
textbfLightDは、視覚・言語事前学習モデルのための自然な逆転サンプルを生成する新しいフレームワークである。
LightDは、シーンセマンティクスとの摂動を確実にしながら、最適化空間を拡張します。
論文 参考訳(メタデータ) (2025-05-30T05:30:02Z) - Beyond Domain Randomization: Event-Inspired Perception for Visually Robust Adversarial Imitation from Videos [4.338232204525725]
専門家によるデモンストレーションや学習者の環境がドメインシフトを示すと、ビデオからの模倣は失敗することが多い。
我々は、外見をランダムにするのではなく、感覚表現自体を再考することによって、その影響を完全に排除するアプローチを提案する。
本手法は,標準RGB動画を時間強度勾配を符号化したスパースなイベントベース表現に変換する。
論文 参考訳(メタデータ) (2025-05-24T23:12:23Z) - Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。