論文の概要: MASC: Boosting Autoregressive Image Generation with a Manifold-Aligned Semantic Clustering
- arxiv url: http://arxiv.org/abs/2510.04220v1
- Date: Sun, 05 Oct 2025 14:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.525165
- Title: MASC: Boosting Autoregressive Image Generation with a Manifold-Aligned Semantic Clustering
- Title(参考訳): MASC:manifold-aligned Semantic Clusteringによる自動回帰画像生成の高速化
- Authors: Lixuan He, Shikang Zheng, Linfeng Zhang,
- Abstract要約: 本稿では,コードブックの本質的な構造から階層的な意味木を直接構築する原理的フレームワークを提案する。
MASCはプラグアンドプレイモジュールとして設計されており,本実験の有効性を検証した。
トレーニングを最大57%加速し、生成品質を大幅に改善し、LlamaGen-XLのFIDを2.87から2.58に削減した。
- 参考スコア(独自算出の注目度): 7.928163920344391
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autoregressive (AR) models have shown great promise in image generation, yet they face a fundamental inefficiency stemming from their core component: a vast, unstructured vocabulary of visual tokens. This conventional approach treats tokens as a flat vocabulary, disregarding the intrinsic structure of the token embedding space where proximity often correlates with semantic similarity. This oversight results in a highly complex prediction task, which hinders training efficiency and limits final generation quality. To resolve this, we propose Manifold-Aligned Semantic Clustering (MASC), a principled framework that constructs a hierarchical semantic tree directly from the codebook's intrinsic structure. MASC employs a novel geometry-aware distance metric and a density-driven agglomerative construction to model the underlying manifold of the token embeddings. By transforming the flat, high-dimensional prediction task into a structured, hierarchical one, MASC introduces a beneficial inductive bias that significantly simplifies the learning problem for the AR model. MASC is designed as a plug-and-play module, and our extensive experiments validate its effectiveness: it accelerates training by up to 57% and significantly improves generation quality, reducing the FID of LlamaGen-XL from 2.87 to 2.58. MASC elevates existing AR frameworks to be highly competitive with state-of-the-art methods, establishing that structuring the prediction space is as crucial as architectural innovation for scalable generative modeling.
- Abstract(参考訳): 自己回帰(AR)モデルは画像生成において大きな将来性を示しているが、その中心となる構成要素である視覚トークンの巨大で非構造的な語彙から生じる根本的な非効率性に直面している。
従来の方法では、トークンを平らな語彙として扱い、近接性はしばしば意味的類似性と相関するトークン埋め込み空間の固有の構造を無視している。
この監視は、トレーニング効率を阻害し、最終生成品質を制限する、非常に複雑な予測タスクをもたらす。
この問題を解決するために,コードブックの本質的な構造から階層的な意味木を直接構築する基本的フレームワークであるManifold-Aligned Semantic Clustering (MASC)を提案する。
MASCは、新しい幾何学的認識距離計量と密度駆動凝集構造を用いて、トークン埋め込みの基礎多様体をモデル化する。
フラットで高次元の予測タスクを構造化された階層的なタスクに変換することで、MASCはARモデルの学習問題を著しく単純化する有益な帰納的バイアスを導入する。
MASCはLlamaGen-XLのFIDを2.87から2.58に低減し、最大57%のトレーニングを加速し、生成品質を大幅に向上する。
MASCは既存のARフレームワークを最先端の手法と高度に競合するように高め、予測空間の構築はスケーラブルな生成モデリングのためのアーキテクチャ上の革新と同じくらい重要であることを証明した。
関連論文リスト
- Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-08-02T08:12:57Z) - Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate [0.0]
本稿では,非学習可能で決定論的な入力埋め込みの基礎の上に構築された,モデル開発のための代替的,建設的なアプローチについて検討する。
異なるデータセットでトレーニングされたスペシャリストモデルは、単一のより有能なMixture-of-Expertsモデルにマージ可能であることを示す。
そこで我々は,深層トランスフォーマーを段階的に積み重ねて,一度に1つのレイヤをトレーニングすることで,階層的に構築的なトレーニング手法を導入する。
論文 参考訳(メタデータ) (2025-07-08T20:01:15Z) - HAD: Hybrid Architecture Distillation Outperforms Teacher in Genomic Sequence Modeling [52.58723853697152]
DNA配列モデリングのためのハイブリッドアーキテクチャ蒸留(HAD)手法を提案する。
我々はNTv2-500Mを教師モデルとして採用し,グループマスキング戦略を考案した。
類似したパラメータを持つモデルと比較して,本モデルは優れた性能を示した。
論文 参考訳(メタデータ) (2025-05-27T07:57:35Z) - Explaining the role of Intrinsic Dimensionality in Adversarial Training [31.495803865226158]
その結果,非多様体対向例(AEs)は強靭性を高め,一方,非多様体のAEsは一般化を向上させることがわかった。
SMAATは,最も内在次元の低い層を摂動させることにより,エンコーダモデルにおけるATのスケーラビリティを向上させる。
我々は、テキスト生成、感情分類、安全フィルタリング、検索強化生成設定など、複数のタスクにわたるSMAATを検証する。
論文 参考訳(メタデータ) (2024-05-27T12:48:30Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs [55.66953093401889]
Masked Graph Autoencoder (MGAE) フレームワークは、グラフ構造データの効果的な学習を行う。
自己指導型学習から洞察を得て、私たちはランダムに大量のエッジを隠蔽し、トレーニング中に欠落したエッジを再構築しようとします。
論文 参考訳(メタデータ) (2022-01-07T16:48:07Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。