Fugu-MT 論文翻訳(概要): Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

論文の概要: Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

arxiv url: http://arxiv.org/abs/2510.14630v1
Date: Thu, 16 Oct 2025 12:43:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-17 21:15:14.85617
Title: Adapting Self-Supervised Representations as a Latent Space for Efficient Generation
Title（参考訳）: 効率的な生成のための潜在空間としての自己スーパービジョン表現の適応
Authors: Ming Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer,
Abstract要約: RepTokは、単一の連続潜在トークンを使用してイメージを表現する生成モデリングフレームワークである。 RepTokは、クラス条件のImageNet生成における競合的な結果を達成し、テキストと画像の合成に自然に拡張する。
参考スコア（独自算出の注目度）: 18.746963205066688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Representation Tokenizer (RepTok), a generative modeling framework that represents an image using a single continuous latent token obtained from self-supervised vision transformers. Building on a pre-trained SSL encoder, we fine-tune only the semantic token embedding and pair it with a generative decoder trained jointly using a standard flow matching objective. This adaptation enriches the token with low-level, reconstruction-relevant details, enabling faithful image reconstruction. To preserve the favorable geometry of the original SSL space, we add a cosine-similarity loss that regularizes the adapted token, ensuring the latent space remains smooth and suitable for generation. Our single-token formulation resolves spatial redundancies of 2D latent spaces and significantly reduces training costs. Despite its simplicity and efficiency, RepTok achieves competitive results on class-conditional ImageNet generation and naturally extends to text-to-image synthesis, reaching competitive zero-shot performance on MS-COCO under extremely limited training budgets. Our findings highlight the potential of fine-tuned SSL representations as compact and effective latent spaces for efficient generative modeling.
Abstract（参考訳）: Representation Tokenizer(RepTok)は、自己監督型視覚変換器から得られる1つの連続潜在トークンを用いて画像を表現する生成モデリングフレームワークである。トレーニング済みのSSLエンコーダをベースとして、セマンティックトークンの埋め込みのみを微調整し、標準フローマッチング目的を用いてトレーニングした生成デコーダと組み合わせる。この適応は、トークンを低レベルの、再構築関連の詳細で豊かにし、忠実な画像再構成を可能にする。元のSSL空間の良好な幾何を保存するために、適応トークンを規則化し、潜伏空間が滑らかで生成に適した状態であることを保証するコサイン類似性損失を加える。我々は,2次元潜在空間の空間的冗長性を解消し,トレーニングコストを大幅に削減する。その単純さと効率性にもかかわらず、RepTokはクラス条件のImageNet生成における競合的な結果を達成し、テキストと画像の合成に自然に拡張し、非常に限られた訓練予算の下でMS-COCO上での競合ゼロショット性能に到達した。本研究は,効率的な生成モデルのためのコンパクトかつ効率的な潜在空間として,微調整されたSSL表現の可能性を明らかにするものである。

関連論文リスト

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。 ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文参考訳（メタデータ） (2025-07-11T09:32:45Z)
LAFR: Efficient Diffusion-based Blind Face Restoration via Latent Codebook Alignment Adapter [52.93785843453579]
低品質(LQ)画像からのブラインド顔復元は、高忠実度画像再構成と顔認証の保存を必要とする課題である。 LAFRは,LQ画像の潜時分布とHQ画像の潜時分布を一致させる,新しいコードブックベースの潜時空間アダプタである。 FFHQデータセットのわずか0.9%での拡散の軽量な微調整は、最先端の手法に匹敵する結果を得るのに十分であることを示す。
論文参考訳（メタデータ） (2025-05-29T14:11:16Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
Open-Vocabulary Semantic Segmentation with Image Embedding Balancing [33.69721994194684]
本稿では,EBSegと呼ばれるオープン語彙セマンティックセグメンテーションのための新しいフレームワークを提案する。 AdaB Decoderは、トレーニングと新しいクラスの両方に異なるイメージ埋め込みを生成するように設計されている。 SSC Lossは画像特徴空間のクラス間の親和性とCLIPのテキスト特徴空間の親和性を調整する。
論文参考訳（メタデータ） (2024-06-14T08:34:20Z)
A Compact and Semantic Latent Space for Disentangled and Controllable Image Editing [4.8201607588546]
本稿では,StyleGANの潜在空間を再編成するオートエンコーダを提案する。提案手法は,同一性に関して元の画像に対する忠実さを維持しつつ,競合する手法よりも不整合性が高いことを示す。
論文参考訳（メタデータ） (2023-12-13T16:18:45Z)
DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。 3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2022-07-13T11:12:03Z)
Momentum Contrastive Autoencoder: Using Contrastive Learning for Latent Space Distribution Matching in WAE [51.09507030387935]
Wasserstein autoencoder (WAE) は、2つの分布が一致することは、このAEの潜在空間が予め指定された事前分布と一致するという制約の下で、単純なオートエンコーダ(AE)損失を最小限にすることと同値であることを示している。本稿では,この問題を解決する手段として,自己指導型表現学習に有効であることを示すコントラスト学習フレームワークを提案する。 WAEの損失を最適化するために、対照的な学習フレームワークを使用することで、WAEの一般的なアルゴリズムと比較して、より高速に収束し、より安定した最適化が達成できることを示す。
論文参考訳（メタデータ） (2021-10-19T22:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。