論文の概要: Structured State-Space Regularization for Compact and Generation-Friendly Image Tokenization
- arxiv url: http://arxiv.org/abs/2604.11089v1
- Date: Mon, 13 Apr 2026 07:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.383074
- Title: Structured State-Space Regularization for Compact and Generation-Friendly Image Tokenization
- Title(参考訳): コンパクト・ジェネレーションフレンドリーな画像化のための構造化状態空間規則化
- Authors: Jinsung Lee, Jaemin Oh, Namhun Kim, Dongwon Kim, Byung-Jun Yoon, Suha Kwak,
- Abstract要約: 最新の視覚モデルと潜在空間を整合させる新しい正規化器を導入する。
鍵となるアイデアは、ステートスペースモデルの隠れた状態ダイナミクスを模倣するために、トークンライザを誘導することである。
提案手法は,再現率の低下を最小限に抑えながら,拡散モデルの生成品質を向上させる。
- 参考スコア(独自算出の注目度): 41.67328909969333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image tokenizers are central to modern vision models as they often operate in latent spaces. An ideal latent space must be simultaneously compact and generation-friendly: it should capture image's essential content compactly while remaining easy to model with generative approaches. In this work, we introduce a novel regularizer to align latent spaces with these two objectives. The key idea is to guide tokenizers to mimic the hidden state dynamics of state-space models (SSMs), thereby transferring their critical property, frequency awareness, to latent features. Grounded in a theoretical analysis of SSMs, our regularizer enforces encoding of fine spatial structures and frequency-domain cues into compact latent features; leading to more effective use of representation capacity and improved generative modelability. Experiments demonstrate that our method improves generation quality in diffusion models while incurring only minimal loss in reconstruction fidelity.
- Abstract(参考訳): 画像トークン化器は、しばしば潜伏空間で動作するため、現代の視覚モデルの中心である。
理想の潜伏空間は、同時にコンパクトで生成フレンドリでなければならない: 生成的アプローチで容易にモデル化しながら、画像の本質的な内容をコンパクトにキャプチャする必要がある。
そこで本研究では,この2つの目的に対して潜在空間を整列させる新しい正規化器を提案する。
鍵となる考え方は、トークンーザが状態空間モデル(SSM)の隠れ状態のダイナミクスを模倣するように誘導することであり、それによってそれらの重要な特性、周波数認識、潜伏する特徴を伝達する。
SSMを理論的に解析し,空間構造と周波数領域のキューをコンパクトな潜在特性に符号化し,表現能力の有効利用と生成性の向上を実現した。
実験により,本手法は再現率の低下を最小限に抑えつつ,拡散モデルの生成品質を向上させることを示した。
関連論文リスト
- Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing [62.94394079771687]
急成長する傾向は、表現エンコーダの高次元特徴を生成的潜伏剤として採用することである。
生成タスクに理解指向のエンコーダ機能を適用するための体系的フレームワークを提案する。
提案手法は,テキスト・トゥ・イメージ(T2I)と画像編集タスクにおいて,最先端の再構築,収束の高速化,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2025-12-19T18:59:57Z) - One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation [33.56782043207013]
Feature Auto-Encoder (FAE) は、学習済みの視覚表現を、単一の注意層としてほとんど使用せずに生成に適した低次元の潜伏子に適応させる。
FAEはクラス条件とテキスト・ツー・イメージのベンチマークで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-08T18:57:26Z) - The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。