論文の概要: DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation
- arxiv url: http://arxiv.org/abs/2601.22904v1
- Date: Fri, 30 Jan 2026 12:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.435234
- Title: DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation
- Title(参考訳): DINO-SAE:高精細画像再構成・生成のためのDINO球形オートエンコーダ
- Authors: Hun Chang, Byunghee Cha, Jong Chul Ye,
- Abstract要約: 本稿では,DINO Spherical Autoencoder(DINO-SAE)について述べる。
提案手法は, 既修のVFMと強いセマンティックアライメントを維持しつつ, 0.37 rFID と 26.2 dB PSNR に到達し, 最先端の再現性を実現する。
- 参考スコア(独自算出の注目度): 47.409626500688866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have explored using pretrained Vision Foundation Models (VFMs) such as DINO for generative autoencoders, showing strong generative performance. Unfortunately, existing approaches often suffer from limited reconstruction fidelity due to the loss of high-frequency details. In this work, we present the DINO Spherical Autoencoder (DINO-SAE), a framework that bridges semantic representation and pixel-level reconstruction. Our key insight is that semantic information in contrastive representations is primarily encoded in the direction of feature vectors, while forcing strict magnitude matching can hinder the encoder from preserving fine-grained details. To address this, we introduce Hierarchical Convolutional Patch Embedding module that enhances local structure and texture preservation, and Cosine Similarity Alignment objective that enforces semantic consistency while allowing flexible feature magnitudes for detail retention. Furthermore, leveraging the observation that SSL-based foundation model representations intrinsically lie on a hypersphere, we employ Riemannian Flow Matching to train a Diffusion Transformer (DiT) directly on this spherical latent manifold. Experiments on ImageNet-1K demonstrate that our approach achieves state-of-the-art reconstruction quality, reaching 0.37 rFID and 26.2 dB PSNR, while maintaining strong semantic alignment to the pretrained VFM. Notably, our Riemannian Flow Matching-based DiT exhibits efficient convergence, achieving a gFID of 3.47 at 80 epochs.
- Abstract(参考訳): 最近の研究は、DINOのような事前訓練された視覚基礎モデル(VFM)を生成オートエンコーダに適用し、強力な生成性能を示した。
残念なことに、既存のアプローチは、高周波の詳細が失われるため、限られた再建の忠実さに悩まされることが多い。
本研究では,DINO Spherical Autoencoder(DINO-SAE)について述べる。
我々の重要な洞察は、コントラスト表現における意味情報は、主に特徴ベクトルの方向に符号化されている一方で、厳密な大きさのマッチングは、エンコーダが細かな詳細を保存することを妨げているということである。
これを解決するために、局所構造とテクスチャ保存を向上する階層的畳み込み組込みモジュールと、セマンティック一貫性を強制するコサイン類似性アライメント(Cosine similarity Alignment)の目標を導入し、細部保持のための柔軟な特徴大を許容する。
さらに、SSLベースの基礎モデル表現が本質的に超球面上にあるという観察を生かして、この球面潜在多様体上で直接拡散変換器(DiT)を訓練するためにリーマンフローマッチングを用いる。
ImageNet-1Kの実験により,本手法は最先端の再現性を実現し,事前訓練されたVFMと強いセマンティックアライメントを維持しつつ,0.37 rFID,26.2 dB PSNRに達した。
特に、我々のリーマンフローマッチングに基づくDiTは効率の良い収束を示し、80エポックで3.47 gFIDを達成する。
関連論文リスト
- RecTok: Reconstruction Distillation along Rectified Flow [85.51292475005151]
本稿では2つの重要な革新を通じて高次元視覚トークン化の限界を克服するRecTokを提案する。
提案手法は,VFMにおける意味情報を,フローマッチングにおける前方流路に抽出する。
我々のRecTokは画像再構成、生成品質、識別性能に優れています。
論文 参考訳(メタデータ) (2025-12-15T15:14:20Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Manifold Decoders: A Framework for Generative Modeling from Nonlinear Embeddings [0.0]
著名なNLDR手法のためのニューラルデコーダアーキテクチャを構築するためのシステム・アティック・フレームワークを提案する。
このフレームワークは、これらの学習された多様体空間内で直接動作する拡散ベースの生成プロセスを実装することで拡張される。
その結果,デコーダはデータの再構築に成功しているが,その品質はエンドツーエンドの最適化されたオートエンコーダに勝っていることがわかった。
論文 参考訳(メタデータ) (2025-10-15T14:50:51Z) - Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models [37.59115132356727]
本稿では,画像生成における遅延拡散モデルのトークン化として,事前学習したビジュアルエンコーダの整合性を提案する。
ImageNet 256$times$256では、トークン化器は拡散モデルの収束を加速し、64時間以内で1.90gFIDに達する。
提案手法は単純で拡張性があり,連続トークン化設計のための意味論的基盤となるパラダイムを確立している。
論文 参考訳(メタデータ) (2025-09-29T17:57:39Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [41.909091496502704]
拡散トランスフォーマー(Diffusion Transformers, DiTs)は、強力なが未探索な生成モデルのクラスである。
解釈可能な拡散変換を行うためのTIDE-Temporal-aware sparse Autoencodersを提案する。
論文 参考訳(メタデータ) (2025-03-10T08:35:51Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - VQ-NeRF: Vector Quantization Enhances Implicit Neural Representations [25.88881764546414]
VQ-NeRFは、ベクトル量子化による暗黙の神経表現を強化するための効率的なパイプラインである。
圧縮および原スケールの両スケールでNeRFモデルを同時に最適化する,革新的なマルチスケールNeRFサンプリング方式を提案する。
我々は3次元再構成の幾何学的忠実度とセマンティックコヒーレンスを改善するためにセマンティックロス関数を組み込んだ。
論文 参考訳(メタデータ) (2023-10-23T01:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。