Fugu-MT 論文翻訳(概要): Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

論文の概要: Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2602.18533v1
Date: Fri, 20 Feb 2026 09:37:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.144198
Title: Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models
Title（参考訳）: テキスト・画像拡散モデルにおける恒等盆地の形態的対応
Authors: Andrew Fraser,
Abstract要約: 形態学的な圧力は、テキスト・画像生成パイプラインの複数のレベルにおいてナビゲート可能な勾配を生じさせることを示す。英語のサウンドシンボリッククラスタから200の新しいナンセンスな単語を生成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We demonstrate that morphological pressure creates navigable gradients at multiple levels of the text-to-image generative pipeline. In Study~1, identity basins in Stable Diffusion 1.5 can be navigated using morphological descriptors -- constituent features like platinum blonde,'' beauty mark,'' and 1950s glamour'' -- without the target's name or photographs. A self-distillation loop (generating synthetic images from descriptor prompts, then training a LoRA on those outputs) achieves consistent convergence toward a specific identity as measured by ArcFace similarity. The trained LoRA creates a local coordinate system shaping not only the target identity but also its inverse: maximal away-conditioning produces eldritch'' structural breakdown in base SD1.5, while the LoRA-equipped model produces ``uncanny valley'' outputs -- coherent but precisely wrong. In Study~2, we extend this to prompt-level morphology. Drawing on phonestheme theory, we generate 200 novel nonsense words from English sound-symbolic clusters (e.g., \emph{cr-}, \emph{sn-}, \emph{-oid}, \emph{-ax}) and find that phonestheme-bearing candidates produce significantly more visually coherent outputs than random controls (mean Purity@1 = 0.371 vs.\ 0.209, p<0.00001p < 0.00001 p<0.00001, Cohen's d=0.55d = 0.55 d=0.55). Three candidates -- \emph{snudgeoid}, \emph{crashax}, and \emph{broomix} -- achieve perfect visual consistency (Purity@1 = 1.0) with zero training data contamination, each generating a distinct, coherent visual identity from phonesthetic structure alone. Together, these studies establish that morphological structure -- whether in feature descriptors or prompt-level phonological form -- creates systematic navigational gradients through diffusion model latent spaces. We document phase transitions in identity basins, CFG-invariant identity stability, and novel visual concepts emerging from sub-lexical sound patterns.
Abstract（参考訳）: 形態学的な圧力がテキスト・画像生成パイプラインの複数のレベルにおいてナビゲート可能な勾配を生じさせることを示す。 Study~1では、安定拡散1.5のアイデンティティ盆地は、形態的記述子(プラチナブロンド、'ビューティーマーク'、'1950年代のグラマー'のような構成的特徴)を使って、標的の名前や写真なしでナビゲートすることができる。自己蒸留ループ(ディスクリプタプロンプトから合成画像を生成し、それらの出力でLoRAを訓練)は、ArcFace類似性によって測定された特定のアイデンティティに対して一貫した収束を達成する。訓練されたLoRAは、ターゲットのアイデンティティだけでなく、その逆も生成するローカル座標系を生成する: 最大解離条件は、SD1.5のベースでエルドリッチの構造的破壊を発生させ、一方、LoRAに装備されたモデルは、'uncanny Valley'の出力を生成する -- 一貫性があるが、正確には間違っている。 Study~2では、これをプロンプトレベルのモルフォロジーに拡張する。音韻理論に基づいて、英音記号クラスタ(eg , \emph{cr-}, \emph{sn-}, \emph{-oid}, \emph{-ax})から200の新規なナンセンスな単語を生成し、無作為な制御(mean Purity@1 = 0.371 vs)よりも、音韻を含む候補がはるかに視覚的にコヒーレントな出力を生成することを発見した。 0.209, p<0.00001p < 0.00001 p<0.00001, コーエンのd=0.55d = 0.55 d=0.55)。 3つの候補 -- \emph{snudgeoid}, \emph{crashax}, \emph{broomix} -- は、訓練データ汚染をゼロとする完全な視覚的一貫性(Purity@1 = 1.0)を達成する。これらの研究は、形態的構造(特徴記述子であれ、即席音韻形式であれ)が拡散モデル潜在空間を通して体系的な航法勾配を生み出すことを証明した。サブレキシカル・サウンド・パターンから生じる相転移, CFG不変の等式安定性, および新しい視覚概念について述べる。

関連論文リスト

Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition [7.632962062462334]
ゼロショット手書き漢字認識は、急進的な意味合成を活用することで、目に見えない文字を認識することを目的としている。本稿では,情報理論モデリングにより視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。 ICDAR 2013データセットで55.04%の精度を達成し,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2026-02-03T16:08:40Z)
LumiX: Structured and Coherent Text-to-Intrinsic Generation [56.659456254026985]
本稿では,コヒーレントテキスト-内在的生成のための構造化拡散フレームワークであるLumiXを紹介する。 LumiXはコヒーレントで物理的に有意義な結果をもたらし、23%のアライメントとより良い選好スコアを得る。同じフレームワーク内でイメージ条件の分解を行うことも可能だ。
論文参考訳（メタデータ） (2025-12-02T13:56:02Z)
DISC-GAN: Disentangling Style and Content for Cluster-Specific Synthetic Underwater Image Generation [4.045232231131666]
本研究では, 水中画像合成のためのクラスタ固有のトレーニング戦略とスタイル・コンテント・アンタングルを統合した新しいフレームワーク, Disentangled Style-Content GAN (DISC-GAN) を提案する。提案手法は,写真構造類似度指数(SSIM)0.9012,平均ピーク信号雑音比(PSNR)32.5118dB,Frechet Inception Distance(FID)13.3728である。
論文参考訳（メタデータ） (2025-10-12T19:56:20Z)
Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文参考訳（メタデータ） (2025-09-26T07:11:55Z)
Semantic and Visual Crop-Guided Diffusion Models for Heterogeneous Tissue Synthesis in Histopathology [2.497936211748472]
現実的な異種組織像を生成する潜在拡散モデルを提案する。本手法は, 生の組織作物を対応する意味領域から直接組み込むことによって, 重要な形態的詳細を保存している。手動のアノテーションを使わずに11,765個のTCGA全スライディング画像にスケールすることで、我々のフレームワークは、多種多様な注釈付き病理データを生成するための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2025-09-22T14:41:43Z)
TextPixs: Glyph-Conditioned Diffusion with Character-Aware Attention and OCR-Guided Supervision [0.0]
本稿では,Glyph-Conditioned Diffusion with Character-Aware Attentionを提案する。すべてのメトリクスに新しい最先端のメトリクスをセットし、テキストレンダリングに基づいたキャラクタベースのメトリクスを改善する。
論文参考訳（メタデータ） (2025-07-08T14:35:02Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文参考訳（メタデータ） (2023-06-23T18:08:00Z)
Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。 2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文参考訳（メタデータ） (2022-11-22T18:59:50Z)
T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。 2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文参考訳（メタデータ） (2022-08-18T07:41:02Z)
Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文参考訳（メタデータ） (2021-07-07T11:43:59Z)
NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。 NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文参考訳（メタデータ） (2021-06-17T12:25:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。