論文の概要: FARMER: Flow AutoRegressive Transformer over Pixels
- arxiv url: http://arxiv.org/abs/2510.23588v1
- Date: Mon, 27 Oct 2025 17:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.656934
- Title: FARMER: Flow AutoRegressive Transformer over Pixels
- Title(参考訳): FARMER: ピクセル上のフロー自動回帰変換器
- Authors: Guangting Zheng, Qinyu Zhao, Tao Yang, Fei Xiao, Zhijie Lin, Jie Wu, Jiajun Deng, Yanyong Zhang, Rui Zhu,
- Abstract要約: 本稿では,正規化フロー(NF)と自己回帰(AR)モデルを統一した新しいエンドツーエンド生成フレームワークを提案する。
FARMERは非可逆自己回帰流を用いて画像を潜在シーケンスに変換し、その分布は自己回帰モデルによって暗黙的にモデル化される。
FARMERは,既存の画素ベース生成モデルと比較して,競合性能が高いことを示す。
- 参考スコア(独自算出の注目度): 39.864972164994946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Directly modeling the explicit likelihood of the raw data distribution is key topic in the machine learning area, which achieves the scaling successes in Large Language Models by autoregressive modeling. However, continuous AR modeling over visual pixel data suffer from extremely long sequences and high-dimensional spaces. In this paper, we present FARMER, a novel end-to-end generative framework that unifies Normalizing Flows (NF) and Autoregressive (AR) models for tractable likelihood estimation and high-quality image synthesis directly from raw pixels. FARMER employs an invertible autoregressive flow to transform images into latent sequences, whose distribution is modeled implicitly by an autoregressive model. To address the redundancy and complexity in pixel-level modeling, we propose a self-supervised dimension reduction scheme that partitions NF latent channels into informative and redundant groups, enabling more effective and efficient AR modeling. Furthermore, we design a one-step distillation scheme to significantly accelerate inference speed and introduce a resampling-based classifier-free guidance algorithm to boost image generation quality. Extensive experiments demonstrate that FARMER achieves competitive performance compared to existing pixel-based generative models while providing exact likelihoods and scalable training.
- Abstract(参考訳): 生データ分布の明確な可能性を直接モデル化することは、機械学習領域において重要なトピックであり、自動回帰モデリングによって大規模言語モデルにおけるスケーリングの成功を達成する。
しかし、画像画素データに対する連続ARモデリングは、非常に長いシーケンスと高次元空間に悩まされている。
本稿では,NFモデルと自己回帰モデルを組み合わせた新たなエンドツーエンド生成フレームワークであるFARMERについて述べる。
FARMERは非可逆自己回帰流を用いて画像を潜在シーケンスに変換し、その分布は自己回帰モデルによって暗黙的にモデル化される。
画素レベルのモデリングにおける冗長性と複雑さを解決するために,NF潜伏チャネルを情報的かつ冗長なグループに分割し,より効率的かつ効率的なARモデリングを可能にする自己教師付き次元縮小手法を提案する。
さらに, 推論速度を大幅に向上させる一段階蒸留方式を設計し, 画像生成品質を向上させるために, 再サンプリング型分類器フリーガイダンスアルゴリズムを導入する。
大規模な実験により、FARMERは既存のピクセルベースの生成モデルと比較して、正確な可能性とスケーラブルなトレーニングを提供しながら、競争力を発揮することが示された。
関連論文リスト
- Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。