論文の概要: iFSQ: Improving FSQ for Image Generation with 1 Line of Code
- arxiv url: http://arxiv.org/abs/2601.17124v1
- Date: Fri, 23 Jan 2026 19:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.294827
- Title: iFSQ: Improving FSQ for Image Generation with 1 Line of Code
- Title(参考訳): iFSQ: 1行のコードによる画像生成のためのFSQの改善
- Authors: Bin Lin, Zongjian Li, Yuwei Niu, Kaixiong Gong, Yunyang Ge, Yunlong Lin, Mingzhe Zheng, JianWei Zhang, Miles Yang, Zhao Zhong, Liefeng Bo, Li Yuan,
- Abstract要約: FSQの活性化関数を分布マッチングマッピングに置き換えて、均一な事前処理を行う方法を示す。
この単純な戦略は、1行のコードしか必要としないが、数学的には最適なビン利用と再構築精度の両方を保証している。
我々は、Representation Alignment(REPA)をARモデルに適用し、LlamaGen-REPAを生成することで分析を拡張した。
- 参考スコア(独自算出の注目度): 40.61338660155903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of image generation is currently bifurcated into autoregressive (AR) models operating on discrete tokens and diffusion models utilizing continuous latents. This divide, rooted in the distinction between VQ-VAEs and VAEs, hinders unified modeling and fair benchmarking. Finite Scalar Quantization (FSQ) offers a theoretical bridge, yet vanilla FSQ suffers from a critical flaw: its equal-interval quantization can cause activation collapse. This mismatch forces a trade-off between reconstruction fidelity and information efficiency. In this work, we resolve this dilemma by simply replacing the activation function in original FSQ with a distribution-matching mapping to enforce a uniform prior. Termed iFSQ, this simple strategy requires just one line of code yet mathematically guarantees both optimal bin utilization and reconstruction precision. Leveraging iFSQ as a controlled benchmark, we uncover two key insights: (1) The optimal equilibrium between discrete and continuous representations lies at approximately 4 bits per dimension. (2) Under identical reconstruction constraints, AR models exhibit rapid initial convergence, whereas diffusion models achieve a superior performance ceiling, suggesting that strict sequential ordering may limit the upper bounds of generation quality. Finally, we extend our analysis by adapting Representation Alignment (REPA) to AR models, yielding LlamaGen-REPA. Codes is available at https://github.com/Tencent-Hunyuan/iFSQ
- Abstract(参考訳): 現在、画像生成の分野は、離散トークンを操作する自己回帰(AR)モデルと、連続的な潜伏剤を利用する拡散モデルに分岐している。
この分割は、VQ-VAEとVAEの区別に根ざし、統一されたモデリングと公正なベンチマークを妨げる。
有限スカラー量子化(FSQ)は理論的なブリッジを提供するが、バニラFSQは重要な欠陥に悩まされる。
このミスマッチは、再構築の忠実さと情報効率のトレードオフを強いる。
本研究では,このジレンマを,元のFSQの活性化関数を分布マッチング写像に置き換えて,均一な事前処理を行うことで解決する。
iFSQとよばれるこの単純な戦略は、1行のコードしか必要としないが、数学的には最適なビン利用と再構築精度の両方を保証している。
制御されたベンチマークとしてiFSQを活用することで、(1)離散表現と連続表現の最適平衡は1次元あたり約4ビットである。
2) 同じ再構成制約の下では,ARモデルは高速な初期収束を示し,拡散モデルは優れた性能天井を達成し,厳密な逐次順序付けにより生成品質の上限が制限される可能性が示唆された。
最後に、Representation Alignment(REPA)をARモデルに適用し、LlamaGen-REPAを生成することで分析を拡張する。
Codesはhttps://github.com/Tencent-Hunyuan/iFSQで入手できる。
関連論文リスト
- Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Robust Residual Finite Scalar Quantization for Neural Compression [46.574899938569125]
有限スカラー量子化(FSQ)は、簡易なトレーニングを提供するが、多段階設定での残留等級劣化に悩まされる。
本稿では,2つの新しい条件付け手法を用いて,この基本的な制限に対処するロバスト残留有限スカラー量子化(RFSQ)を提案する。
RFSQの有効性と一般化性を示す。
論文 参考訳(メタデータ) (2025-08-20T15:18:59Z) - LAFR: Efficient Diffusion-based Blind Face Restoration via Latent Codebook Alignment Adapter [52.93785843453579]
低品質(LQ)画像からのブラインド顔復元は、高忠実度画像再構成と顔認証の保存を必要とする課題である。
LAFRは,LQ画像の潜時分布とHQ画像の潜時分布を一致させる,新しいコードブックベースの潜時空間アダプタである。
FFHQデータセットのわずか0.9%での拡散の軽量な微調整は、最先端の手法に匹敵する結果を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2025-05-29T14:11:16Z) - Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。
最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。
本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:57:08Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。