論文の概要: Latent Denoising Makes Good Visual Tokenizers
- arxiv url: http://arxiv.org/abs/2507.15856v1
- Date: Mon, 21 Jul 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.529237
- Title: Latent Denoising Makes Good Visual Tokenizers
- Title(参考訳): Latent Denoisingは、優れたビジュアルトケナイザを作る
- Authors: Jiawei Yang, Tianhong Li, Lijie Fan, Yonglong Tian, Yue Wang,
- Abstract要約: 補間ノイズとランダムマスキングにより劣化した潜伏埋設物からクリーンなイメージを再構築する訓練を施した,単純で効果的なトークンであるLatent Denoising Tokenizer (l-DeTok)を紹介した。
ImageNet 256x256の実験では、トークン化器が6つの代表的な生成モデルで標準トークン化器を一貫して上回っていることが実証された。
- 参考スコア(独自算出の注目度): 20.267773446610377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their fundamental role, it remains unclear what properties could make visual tokenizers more effective for generative modeling. We observe that modern generative models share a conceptually similar training objective -- reconstructing clean signals from corrupted inputs such as Gaussian noise or masking -- a process we term denoising. Motivated by this insight, we propose aligning tokenizer embeddings directly with the downstream denoising objective, encouraging latent embeddings to be more easily reconstructed even when heavily corrupted. To achieve this, we introduce the Latent Denoising Tokenizer (l-DeTok), a simple yet effective tokenizer trained to reconstruct clean images from latent embeddings corrupted by interpolative noise and random masking. Extensive experiments on ImageNet 256x256 demonstrate that our tokenizer consistently outperforms standard tokenizers across six representative generative models. Our findings highlight denoising as a fundamental design principle for tokenizer development, and we hope it could motivate new perspectives for future tokenizer design.
- Abstract(参考訳): その基本的な役割にもかかわらず、どのような特性が視覚的トークン化剤を生成的モデリングにより効果的にするかは定かではない。
我々は,現代の生成モデルが,ガウスノイズやマスキングなどの劣化した入力からクリーンな信号を再構成する,概念的に類似した訓練目標を共有していることを観察する。
この知見に触発されて、下流の遮音目的と直接整合するトークン化器の埋め込みを提案し、過度に破損しても潜伏埋め込みをより簡単に再構築することを奨励する。
これを実現するために、補間ノイズとランダムマスキングにより劣化した潜伏埋め込みからクリーンなイメージを再構築する訓練を施した、シンプルで効果的なトークンであるLatent Denoising Tokenizer (l-DeTok)を紹介した。
ImageNet 256x256の大規模な実験により、我々のトークンライザは6つの代表的な生成モデルで標準トークンライザを一貫して上回っていることが示された。
この結果から,トークン化の基本的な設計原則としての認知が強調され,将来的なトークン化設計への新たな視点のモチベーションが期待できる。
関連論文リスト
- Revealing the Implicit Noise-based Imprint of Generative Models [71.94916898756684]
本稿では,検出タスクにノイズに基づくモデル固有インプリントを利用する新しいフレームワークを提案する。
様々な生成モデルからのインプリントを集約することにより、将来のモデルのインプリントを外挿してトレーニングデータを拡張することができる。
提案手法は,GenImage,Synthbuster,Chameleonの3つの公開ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-12T12:04:53Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis [57.7367843129838]
最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。
本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-03-11T12:09:11Z) - MIGA: Mutual Information-Guided Attack on Denoising Models for Semantic Manipulation [39.12448251986432]
深層認知モデルを直接攻撃するためのMIGA(Mutual Information-Guided Attack)を提案する。
MIGAは、敵対的摂動を通じて意味的コンテンツを保存するモデルの能力を戦略的に破壊する。
以上の結果から,デノベーションモデルは必ずしも堅牢ではなく,現実のアプリケーションにセキュリティリスクをもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2025-03-10T06:26:34Z) - Improving Generative Pre-Training: An In-depth Study of Masked Image Modeling and Denoising Models [34.02500148392666]
本研究では,付加音が事前学習深層ネットワークに与える影響について検討する。
エンコーダ内での破損と復元,特徴空間におけるノイズの導入,ノイズとマスクによるトークンの明示的な乱れ,の3つの重要な条件が明らかになった。
論文 参考訳(メタデータ) (2024-12-26T07:47:20Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - Masked Image Training for Generalizable Deep Image Denoising [53.03126421917465]
本稿では,デノナイジングネットワークの一般化性能を高めるための新しい手法を提案する。
提案手法では,入力画像のランダムなピクセルをマスキングし,学習中に欠落した情報を再構成する。
提案手法は,他のディープラーニングモデルよりも優れた一般化能力を示し,実世界のシナリオに直接適用可能である。
論文 参考訳(メタデータ) (2023-03-23T09:33:44Z) - CurvPnP: Plug-and-play Blind Image Restoration with Deep Curvature
Denoiser [7.442030347967277]
既存のプラグアンドプレイ画像復元法は、非盲検に設計されている。
本稿では,より複雑な画像復元問題に対処できる,視覚障害者のための新しい枠組みを提案する。
本モデルでは,ノイズレベルが異なる場合でも,微細な構造を再現できることが示されている。
論文 参考訳(メタデータ) (2022-11-14T11:30:24Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z) - Reconstructing the Noise Manifold for Image Denoising [56.562855317536396]
本稿では,画像ノイズ空間の構造を明示的に活用するcGANを提案する。
画像ノイズの低次元多様体を直接学習することにより、この多様体にまたがる情報のみをノイズ画像から除去する。
我々の実験に基づいて、我々のモデルは既存の最先端アーキテクチャを大幅に上回っている。
論文 参考訳(メタデータ) (2020-02-11T00:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。