論文の概要: Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization
- arxiv url: http://arxiv.org/abs/2605.10780v2
- Date: Tue, 12 May 2026 07:07:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.138162
- Title: Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization
- Title(参考訳): 最後の層を超えて:ビジュアルトークン化のための多層表現融合
- Authors: Xuanyu Zhu, Yan Bai, Yang Shi, Yihang Lou, Yuanxing Zhang, Jing Jin, Yuan Zhou,
- Abstract要約: 複数層のセマンティック抽象化の後, 残差が減衰しただけに, 低レベルの視覚的詳細が最終層に残っていることを示す。
エネルギー制約付きルーティングとインクリメンタル修正により,すべてのエンコーダ層を集約する軽量核融合モジュールDRoRAEを提案する。
ImageNet-256では、DRoRAEはrFIDを0.57から0.29に削減し、生成FIDを1.74から1.65に改善した。
- 参考スコア(独自算出の注目度): 22.506725643003403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation autoencoders that reuse frozen pretrained vision encoders as visual tokenizers have achieved strong reconstruction and generation quality. However, existing methods universally extract features from only the last encoder layer, discarding the rich hierarchical information distributed across intermediate layers. We show that low-level visual details survive in the last layer merely as attenuated residuals after multiple layers of semantic abstraction, and that explicitly fusing multi-layer features can substantially recover this lost information. We propose DRoRAE (Depth-Routed Representation AutoEncoder), a lightweight fusion module that adaptively aggregates all encoder layers via energy-constrained routing and incremental correction, producing an enriched latent compatible with a frozen pretrained decoder. A three-phase decoupled training strategy first learns the fusion under the implicit distributional constraint of the frozen decoder, then fine-tunes the decoder to fully exploit the enriched representation. On ImageNet-256, DRoRAE reduces rFID from 0.57 to 0.29 and improves generation FID from 1.74 to 1.65 (with AutoGuidance), with gains also transferring to text-to-image synthesis. Furthermore, we uncover a log-linear scaling law ($R^2{=}0.86$) between fusion capacity and reconstruction quality, identifying \textit{representation richness} as a new, predictably scalable dimension for visual tokenizers analogous to vocabulary size in NLP.
- Abstract(参考訳): 凍結学習された視覚エンコーダを視覚トークン化剤として再利用する表現オートエンコーダは、強力な再構成と生成品質を実現している。
しかし、既存の手法は最後のエンコーダ層のみから特徴を普遍的に抽出し、中間層に分散した豊富な階層情報を破棄する。
複数レイヤのセマンティック抽象化後の残差を減らしただけで,低レベルの視覚的詳細が最終層に残っていることを示し,多層特徴を明示的に融合させることで,この失われた情報を著しく復元できることを示した。
DRoRAE(Depth-Routed Representation AutoEncoder)は,全エンコーダ層をエネルギー制約付きルーティングと漸進的修正により適応的に集約し,凍結した事前学習デコーダと互換性のある拡張遅延値を生成する軽量フュージョンモジュールである。
3相分離型トレーニング戦略は、まず凍結したデコーダの暗黙の分布制約の下で融合を学習し、次にデコーダを微調整してリッチな表現を完全に活用する。
ImageNet-256では、DRoRAEはrFIDを0.57から0.29に減らし、生成FIDを1.74から1.65(AutoGuidance)に改善し、テキストと画像の合成も行う。
さらに,NLPにおける語彙サイズに類似した視覚トークン化器の新たな拡張可能な次元として,融合能力と再構成品質の対数線形スケーリング法(R^2{=}0.86$)を明らかにした。
関連論文リスト
- ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models [37.59115132356727]
本稿では,画像生成における遅延拡散モデルのトークン化として,事前学習したビジュアルエンコーダの整合性を提案する。
ImageNet 256$times$256では、トークン化器は拡散モデルの収束を加速し、64時間以内で1.90gFIDに達する。
提案手法は単純で拡張性があり,連続トークン化設計のための意味論的基盤となるパラダイムを確立している。
論文 参考訳(メタデータ) (2025-09-29T17:57:39Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Layer-wise Representation Fusion for Compositional Generalization [26.771056871444692]
合成一般化における失敗の主な理由は、エンコーダとデコーダの両方の最上層におけるシーケンスの構文的および意味的表現が絡み合っていることである。
トランスフォーマー層の下部から上部まで、表現の進化メカニズムを解析することにより、なぜそのメカニズムが存在するのかを説明する。
そこで我々は,従来のレイヤの情報を符号化・復号処理に融合させることを学習するCGのための新しい textbfLayer-wise textbfRepresentation textbfFusion フレームワークである LRF を提案する。
論文 参考訳(メタデータ) (2023-07-20T12:01:40Z) - Self-Supervised Generative-Contrastive Learning of Multi-Modal Euclidean Input for 3D Shape Latent Representations: A Dynamic Switching Approach [53.376029341079054]
本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。
このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
論文 参考訳(メタデータ) (2023-01-11T18:14:24Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。