論文の概要: When Identities Collapse: A Stress-Test Benchmark for Multi-Subject Personalization
- arxiv url: http://arxiv.org/abs/2603.26078v1
- Date: Fri, 27 Mar 2026 05:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.359021
- Title: When Identities Collapse: A Stress-Test Benchmark for Multi-Subject Personalization
- Title(参考訳): Identities Collapse: マルチオブジェクトパーソナライゼーションのためのストレステストベンチマーク
- Authors: Zhihan Chen, Yuhuan Zhao, Yijie Zhu, Xinyu Yao,
- Abstract要約: 本稿では,DINOv2の構造的前提に基づく新しい評価指標である主観的崩壊速度(SCR)を紹介する。
SCRは10被験者で100%に近づき,シーンの複雑さが増大するにつれてアイデンティティの忠実度が急激な低下を示す。
- 参考スコア(独自算出の注目度): 3.245046496701612
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Subject-driven text-to-image diffusion models have achieved remarkable success in preserving single identities, yet their ability to compose multiple interacting subjects remains largely unexplored and highly challenging. Existing evaluation protocols typically rely on global CLIP metrics, which are insensitive to local identity collapse and fail to capture the severity of multi-subject entanglement. In this paper, we identify a pervasive "Illusion of Scalability" in current models: while they excel at synthesizing 2-4 subjects in simple layouts, they suffer from catastrophic identity collapse when scaled to 6-10 subjects or tasked with complex physical interactions. To systematically expose this failure mode, we construct a rigorous stress-test benchmark comprising 75 prompts distributed across varying subject counts and interaction difficulties (Neutral, Occlusion, Interaction). Furthermore, we demonstrate that standard CLIP-based metrics are fundamentally flawed for this task, as they often assign high scores to semantically correct but identity-collapsed images (e.g., generating generic clones). To address this, we introduce the Subject Collapse Rate (SCR), a novel evaluation metric grounded in DINOv2's structural priors, which strictly penalizes local attention leakage and homogenization. Our extensive evaluation of state-of-the-art models (MOSAIC, XVerse, PSR) reveals a precipitous drop in identity fidelity as scene complexity grows, with SCR approaching 100% at 10 subjects. We trace this collapse to the semantic shortcuts inherent in global attention routing, underscoring the urgent need for explicit physical disentanglement in future generative architectures.
- Abstract(参考訳): 対象駆動のテキスト・ツー・イメージ拡散モデルは単一アイデンティティの保存において顕著な成功を収めてきたが、複数の相互作用する対象を構成する能力はほとんど探索されておらず、非常に難しいままである。
既存の評価プロトコルは一般的にグローバルなCLIPメトリクスに依存しており、これは局所的なアイデンティティの崩壊に敏感であり、マルチオブジェクトの絡み合いの深刻さを捉えることができない。
本稿では,2~4人の被験者を簡単なレイアウトで合成することに長けているが,6~10人の被験者にスケールさせたり,複雑な物理的相互作用を課されたりすると,破滅的なアイデンティティ崩壊に悩まされる。
この障害モードを体系的に公開するために、様々な対象数と相互作用困難(ニュートラル、オクルージョン、相互作用)にまたがる75のプロンプトからなる厳密なストレステストベンチマークを構築した。
さらに、標準的なCLIPベースのメトリクスは、意味論的に正しいがアイデンティティが崩壊した画像(例えば、ジェネリッククローンを生成する)に高いスコアを割り当てることが多いため、このタスクに根本的な欠陥があることを実証する。
そこで我々は,DINOv2の構造的先行性に基づく新たな評価指標であるSCRを導入する。
最先端モデル (MOSAIC, XVerse, PSR) を広範囲に評価した結果, シーンの複雑さが増大するにつれて, SCR は 10 件で100% に近づいた。
この崩壊を、グローバルアテンション・ルーティングに固有のセマンティック・ショートカットに遡り、将来の生成的アーキテクチャにおいて、明示的な物理的非絡み合いの必要性を浮き彫りにしている。
関連論文リスト
- From Intent to Evidence: A Categorical Approach for Structural Evaluation of Deep Research Agents [25.080554451314683]
深層研究エージェント(DRA)は、複雑な情報合成のための有望なパラダイムとして登場した。
我々は、DRAの挙動を圏論のレンズを通して形式化し、構造保存マップの合成として深層研究ワークフローをモデル化する。
エージェントを4つの解釈可能な軸に沿ってストレステストするために設計された296の質問を持つメカニズム認識ベンチマークを導入する。
論文 参考訳(メタデータ) (2026-03-26T11:37:26Z) - AnyCrowd: Instance-Isolated Identity-Pose Binding for Arbitrary Multi-Character Animation [55.94507360511886]
我々は,任意の文字にスケール可能なトランスフォーマーベースのビデオ生成フレームワークであるAnyCrowdを提案する。
具体的には、まず、DiT処理に先立って文字インスタンスを独立してエンコードするIILR(Instance-Isolated Latent Representation)を導入し、遅延IDの絡み込みを防止する。
この不整合表現に基づいて、さらに、(i)インスタンス認識フォアグラウンドアテンション、(ii)背景中心の相互作用、(iii)世界背景調整に自己注意を分解することで、運転ポーズにアイデンティティを結合するトリステージデカップリングアテンション(TSDA)を提案する。
論文 参考訳(メタデータ) (2026-03-16T15:25:04Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - Relative Classification Accuracy: A Calibrated Metric for Identity Consistency in Fine-Grained K-pop Face Generation [0.0]
Denoising Diffusion Probabilistic Models (DDPM) は高忠実度画像生成において顕著な成功を収めた。
FID や Inception Score (IS) のような標準メトリクスは、そのような特殊なコンテキストにおけるアイデンティティの不一致を検出するのに失敗することが多い。
K-pop idol face generation (32x32) のクラス・コンディショナルDDPMについて検討した。
論文 参考訳(メタデータ) (2026-01-22T00:58:59Z) - From Feature Interaction to Feature Generation: A Generative Paradigm of CTR Prediction Models [81.43473418572567]
CTR(Click-Through Rate)予測は、レコメンデーションシステムにおける中核的なタスクである。
本稿では,埋め込み次元の崩壊と情報冗長性に対処する新しい生成フレームワークを提案する。
SFGは埋没崩壊を緩和し,情報冗長性を低減し,性能向上を図っている。
論文 参考訳(メタデータ) (2025-12-16T03:17:18Z) - Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights [41.385614383367205]
現在のモデルは、理解と生成を統一することで、単一モダリティ表現の限界を超越することを目的としている。
トレーニングと評価における静的な単一イメージ生成への依存は、静的パターンマッチングとセマンティックフュージョンに過度に適合する。
本稿では,連鎖型テキスト・マルチ画像生成のための因果事象進行ベンチマークEnvisionを提案する。
論文 参考訳(メタデータ) (2025-12-01T15:52:31Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement [13.100620283631557]
マルチオブジェクト生成を再考する表現中心のフレームワークであるMOSAICを提案する。
我々の重要な洞察は、マルチオブジェクト生成は表現レベルで正確にセマンティックアライメントを必要とすることである。
本稿では,意味対応型アライメントの精度を高めるために,意味対応型アライメントアライメントの損失を提案する。
論文 参考訳(メタデータ) (2025-09-02T05:40:07Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Intra-Camera Supervised Person Re-Identification [87.88852321309433]
本稿では,カメラごとの個人識別アノテーションに基づく新しい人物識別パラダイムを提案する。
これにより、最も時間がかかり、面倒なカメラ間IDラベリングプロセスがなくなる。
MATE(Multi-tAsk mulTi-labEl)Deep Learning method for intra-Camera Supervised (ICS) person re-id。
論文 参考訳(メタデータ) (2020-02-12T15:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。