論文の概要: Decoupling Complexity from Scale in Latent Diffusion Model
- arxiv url: http://arxiv.org/abs/2511.16117v1
- Date: Thu, 20 Nov 2025 07:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.515506
- Title: Decoupling Complexity from Scale in Latent Diffusion Model
- Title(参考訳): 潜在拡散モデルにおけるスケールからの複雑さの分離
- Authors: Tianxiong Zhong, Xingye Tian, Xuebo Wang, Boyuan Jiang, Xin Tao, Pengfei Wan,
- Abstract要約: 我々は,情報複雑性をスケールから分離する視覚生成のための新しいパラダイムであるDCS-LDMを提案する。
構造的および詳細な情報を階層的に分解することにより、DCS-LDMはプログレッシブ・粗大な生成パラダイムをサポートする。
実験の結果,DCS-LDMは最先端手法に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 14.729093499673242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing latent diffusion models typically couple scale with content complexity, using more latent tokens to represent higher-resolution images or higher-frame rate videos. However, the latent capacity required to represent visual data primarily depends on content complexity, with scale serving only as an upper bound. Motivated by this observation, we propose DCS-LDM, a novel paradigm for visual generation that decouples information complexity from scale. DCS-LDM constructs a hierarchical, scale-independent latent space that models sample complexity through multi-level tokens and supports decoding to arbitrary resolutions and frame rates within a fixed latent representation. This latent space enables DCS-LDM to achieve a flexible computation-quality tradeoff. Furthermore, by decomposing structural and detailed information across levels, DCS-LDM supports a progressive coarse-to-fine generation paradigm. Experimental results show that DCS-LDM delivers performance comparable to state-of-the-art methods while offering flexible generation across diverse scales and visual qualities.
- Abstract(参考訳): 既存の遅延拡散モデルは、通常、より遅延トークンを使用して高解像度の画像や高フレームレートのビデオを表現する。
しかし、視覚データを表現するのに必要な潜在能力は、主にコンテンツの複雑さに依存し、スケールは上限としてのみ機能する。
本研究の目的は,情報複雑性をスケールから分離する視覚生成のための新しいパラダイムであるDCS-LDMを提案することである。
DCS-LDMは階層的でスケールに依存しない潜在空間を構築し、多レベルトークンを通してサンプルの複雑さをモデル化し、固定された潜在表現内の任意の解像度とフレームレートへの復号をサポートする。
この遅延空間により、DCS-LDMはフレキシブルな計算品質のトレードオフを達成することができる。
さらに、構造的および詳細な情報を階層的に分解することにより、DCS-LDMはプログレッシブ・粗大な生成パラダイムをサポートする。
実験結果から,DCS-LDMは最先端の手法に匹敵する性能を示しながら,多様なスケールと視覚的品質の柔軟な生成を実現している。
関連論文リスト
- Prompt Guiding Multi-Scale Adaptive Sparse Representation-driven Network for Low-Dose CT MAR [48.23538056110433]
低線量CT(LDCT)はX線被曝を減らすことができるが、画質を低下させる可能性がある。
既存のディープラーニングベースの取り組みには,2つの大きな制限がある。
LDMARタスクのためのマルチスケール適応スパース表現駆動ネットワークPMSRNetを提案する。
論文 参考訳(メタデータ) (2025-04-28T11:23:57Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - SOM-CPC: Unsupervised Contrastive Learning with Self-Organizing Maps for
Structured Representations of High-Rate Time Series [23.074319429090092]
我々は,高次元情報を保存しながら,組織化された2次元多様体内のデータを可視化するモデルSOM-CPCを提案する。
我々は,SOM-CPCがDLベースの特徴抽出のような強力なベースラインよりも優れている,合成データと実生活データ(生理データとオーディオ記録)の両方について示す。
論文 参考訳(メタデータ) (2022-05-31T15:21:21Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。