論文の概要: Latent Spaces Beyond Synthesis: From GANs to Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.17383v1
- Date: Mon, 20 Oct 2025 10:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.404861
- Title: Latent Spaces Beyond Synthesis: From GANs to Diffusion Models
- Title(参考訳): 合成を超えた潜在空間:GANから拡散モデルへ
- Authors: Ludovica Schaerf,
- Abstract要約: 拡散モデルが表現の重みをいかに断片化し、統一された内部空間の仮定に挑戦するかを示す。
我々は、生成的AIがどのように理解されているかを再考する:コンテンツを直接合成するのではなく、専門的なプロセスの創発的な構成としてである。
- 参考スコア(独自算出の注目度): 2.9612444540570113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines the evolving nature of internal representations in generative visual models, focusing on the conceptual and technical shift from GANs and VAEs to diffusion-based architectures. Drawing on Beatrice Fazi's account of synthesis as the amalgamation of distributed representations, we propose a distinction between "synthesis in a strict sense", where a compact latent space wholly determines the generative process, and "synthesis in a broad sense," which characterizes models whose representational labor is distributed across layers. Through close readings of model architectures and a targeted experimental setup that intervenes in layerwise representations, we show how diffusion models fragment the burden of representation and thereby challenge assumptions of unified internal space. By situating these findings within media theoretical frameworks and critically engaging with metaphors such as the latent space and the Platonic Representation Hypothesis, we argue for a reorientation of how generative AI is understood: not as a direct synthesis of content, but as an emergent configuration of specialized processes.
- Abstract(参考訳): 本稿では,GANやVAEから拡散型アーキテクチャへの概念的および技術的シフトに着目し,生成的視覚モデルにおける内部表現の進化の性質について考察する。
ベアトリス・ファジ(Beatrice Fazi)の合成を分散表現のアマルガメーションとして記述し、コンパクトな潜在空間が生成過程を完全に決定する「厳密な意味での合成」と、「広義の合成」とを区別する。
モデルアーキテクチャの綿密な読解と層状表現に介入する実験的な設定により,拡散モデルが表現の負担を解消し,統一された内部空間の仮定に挑戦することを示す。
これらの知見をメディア理論の枠組み内に配置し、潜在空間やプラトン表現仮説などのメタファーに批判的に関与することにより、生成AIがどのように理解されるかを再考することで、コンテンツを直接合成するのではなく、特殊なプロセスの創発的な構成として論じる。
関連論文リスト
- Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [30.07172193932125]
本稿では,JAM(Joint Autoencoder Modulator)が独立に訓練された表現のアライメントを誘導することを示す。
本研究は, 共通意味論の構造に関する理論的知見と, 一般論的な一助的基礎を専門的マルチモーダルモデルに変換するための実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-07-01T21:43:50Z) - Can Diffusion Models Disentangle? A Theoretical Perspective [37.21661224725838]
本稿では,拡散モデルが非交叉表現を学習する方法を理解するための新しい理論的枠組みを提案する。
我々は、一般的な非絡み付き潜在変数モデルの識別可能性条件を確立し、トレーニング力学を解析し、非絡み付き潜在部分空間モデルのサンプル複雑性境界を導出する。
論文 参考訳(メタデータ) (2025-03-31T20:46:18Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。
我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。
このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文 参考訳(メタデータ) (2023-10-03T05:40:56Z) - Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。
類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。
本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文 参考訳(メタデータ) (2021-09-15T02:26:07Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。