Fugu-MT 論文翻訳(概要): A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

論文の概要: A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

arxiv url: http://arxiv.org/abs/2602.21596v1
Date: Wed, 25 Feb 2026 05:46:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.716395
Title: A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers
Title（参考訳）: 拡散変圧器の条件埋め込みにおける隠れセマンティック・ボトルネック
Authors: Trung X. Pham, Kang Zhang, Ji Woo Hong, Chang D. Yoo,
Abstract要約: クラス条件の埋め込みは、ImageNet-1Kで99%を超える極めて角度の類似性を示す。ポーズ誘導画像生成やビデオ音声生成といった連続条件タスクは99.9%以上に達する。その結果、Transformerベースの拡散モデルにおいて意味的ボトルネックが明らかとなった。
参考スコア（独自算出の注目度）: 39.88221350788385
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Transformers have achieved state-of-the-art performance in class-conditional and multimodal generation, yet the structure of their learned conditional embeddings remains poorly understood. In this work, we present the first systematic study of these embeddings and uncover a notable redundancy: class-conditioned embeddings exhibit extreme angular similarity, exceeding 99\% on ImageNet-1K, while continuous-condition tasks such as pose-guided image generation and video-to-audio generation reach over 99.9\%. We further find that semantic information is concentrated in a small subset of dimensions, with head dimensions carrying the dominant signal and tail dimensions contributing minimally. By pruning low-magnitude dimensions--removing up to two-thirds of the embedding space--we show that generation quality and fidelity remain largely unaffected, and in some cases improve. These results reveal a semantic bottleneck in Transformer-based diffusion models, providing new insights into how semantics are encoded and suggesting opportunities for more efficient conditioning mechanisms.
Abstract（参考訳）: 拡散変換器は, クラス条件およびマルチモーダル生成において最先端の性能を達成したが, 学習条件の埋め込み構造はよく分かっていない。本研究では,これらの埋め込みを初めて体系的に研究し,顕著な冗長性を明らかにする。クラス条件の埋め込みは,画像Net-1Kで99\%を超える極めて角度の類似性を示す一方,ポーズ誘導画像生成やビデオ音声生成などの連続条件タスクは99.9\%に達する。さらに、意味情報は、支配的な信号と尾の次元を持つ頭部次元が最小限に寄与する、小さな次元のサブセットに集中していることが分かる。埋め込み空間の最大3分の2を除去し、低マグニチュード次元を刈り取ることで、生成品質と忠実性はほとんど影響を受けておらず、場合によっては改善されていることを示す。これらの結果はトランスフォーマーに基づく拡散モデルにおける意味的ボトルネックを明らかにし、意味論のエンコード方法に関する新たな洞察を与え、より効率的な条件付け機構の機会を提案する。

関連論文リスト

Dual-Representation Image Compression at Ultra-Low Bitrates via Explicit Semantics and Implicit Textures [26.444951124177013]
事前学習モデルから先行モデルを活用する生成的圧縮手法が,有望なパラダイムとして出現している。既存のアプローチは、意味的忠実性と知覚的リアリズムのトレードオフによって制約される。本稿では,このギャップを埋める統一的なフレームワークを提案する。
論文参考訳（メタデータ） (2026-02-05T02:14:05Z)
DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation [47.409626500688866]
本稿では,DINO Spherical Autoencoder(DINO-SAE)について述べる。提案手法は, 既修のVFMと強いセマンティックアライメントを維持しつつ, 0.37 rFID と 26.2 dB PSNR に到達し, 最先端の再現性を実現する。
論文参考訳（メタデータ） (2026-01-30T12:25:34Z)
RecTok: Reconstruction Distillation along Rectified Flow [85.51292475005151]
本稿では2つの重要な革新を通じて高次元視覚トークン化の限界を克服するRecTokを提案する。提案手法は,VFMにおける意味情報を,フローマッチングにおける前方流路に抽出する。我々のRecTokは画像再構成、生成品質、識別性能に優れています。
論文参考訳（メタデータ） (2025-12-15T15:14:20Z)
Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文参考訳（メタデータ） (2025-11-24T01:13:51Z)
DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文参考訳（メタデータ） (2025-05-16T08:47:16Z)
Nested Diffusion Models Using Hierarchical Latent Priors [23.605302440082994]
ネスト拡散モデル(ネスト拡散モデル)は、効率的で強力な階層的生成フレームワークである。提案手法では,様々な意味レベルで潜伏変数を段階的に生成するために,一連の拡散モデルを用いる。これらの潜伏変数を構築するために,事前学習した視覚エンコーダを用いて,強い意味的視覚表現を学習する。
論文参考訳（メタデータ） (2024-12-08T16:13:39Z)
Boosting Visual Recognition in Real-world Degradations via Unsupervised Feature Enhancement Module with Deep Channel Prior [22.323789227447755]
霧、低照度、動きのぼかしは画像の品質を低下させ、自動運転の安全性を脅かす。本研究は、劣化した視覚認識のための新しいDeep Channel Prior (DCP)を提案する。これに基づいて、教師なし特徴補正を実現するために、新しいプラグアンドプレイunsupervised Feature Enhancement Module (UFEM)を提案する。
論文参考訳（メタデータ） (2024-04-02T07:16:56Z)
Mutual Information-driven Triple Interaction Network for Efficient Image Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文参考訳（メタデータ） (2023-08-14T08:23:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。