論文の概要: FVAR: Visual Autoregressive Modeling via Next Focus Prediction
- arxiv url: http://arxiv.org/abs/2511.18838v1
- Date: Mon, 24 Nov 2025 07:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.076394
- Title: FVAR: Visual Autoregressive Modeling via Next Focus Prediction
- Title(参考訳): FVAR: 次のフォーカス予測による視覚的自己回帰モデリング
- Authors: Xiaofan Li, Chenming Wu, Yanpeng Sun, Jiaming Zhou, Delin Qu, Yansong Qu, Weihao Bo, Haibao Yu, Dingkang Liang,
- Abstract要約: 我々は,このパラダイムを,プンネクストスケールの予測からプンネクストフォーカスの予測に再編成するtextbf'を提案する。
アプローチでは3つの重要なイノベーションを紹介している。 textbf1) マルチスケールの自己回帰を、単にダウンサンプリングするのではなく、徐々にぼやけを減らし、変換する次世代のFocus Prediction Paradigm。
textbf2) 物理に一貫性のあるデフォーカスカーネルを使用してクリーンでエイリアスフリーなマルチスケール表現を構築するプログレッシブリフォーカスピラミッドの構築。
- 参考スコア(独自算出の注目度): 35.70387954364497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual autoregressive models achieve remarkable generation quality through next-scale predictions across multi-scale token pyramids. However, the conventional method uses uniform scale downsampling to build these pyramids, leading to aliasing artifacts that compromise fine details and introduce unwanted jaggies and moiré patterns. To tackle this issue, we present \textbf{FVAR}, which reframes the paradigm from \emph{next-scale prediction} to \emph{next-focus prediction}, mimicking the natural process of camera focusing from blur to clarity. Our approach introduces three key innovations: \textbf{1) Next-Focus Prediction Paradigm} that transforms multi-scale autoregression by progressively reducing blur rather than simply downsampling; \textbf{2) Progressive Refocusing Pyramid Construction} that uses physics-consistent defocus kernels to build clean, alias-free multi-scale representations; and \textbf{3) High-Frequency Residual Learning} that employs a specialized residual teacher network to effectively incorporate alias information during training while maintaining deployment simplicity. Specifically, we construct optical low-pass views using defocus point spread function (PSF) kernels with decreasing radius, creating smooth blur-to-clarity transitions that eliminate aliasing at its source. To further enhance detail generation, we introduce a High-Frequency Residual Teacher that learns from both clean structure and alias residuals, distilling this knowledge to a vanilla VAR deployment network for seamless inference. Extensive experiments on ImageNet demonstrate that FVAR substantially reduces aliasing artifacts, improves fine detail preservation, and enhances text readability, achieving superior performance with perfect compatibility to existing VAR frameworks.
- Abstract(参考訳): 視覚的自己回帰モデルは、マルチスケールのトークンピラミッドをまたいだ次世代の予測を通じて、顕著な生成品質を達成する。
しかし、従来の方法では、これらのピラミッドを構築するために一様スケールダウンサンプリングを使用しており、細かい詳細を妥協し、望ましくないジャギーやモアレパターンを導入するアーティファクトをエイリアス化している。
この問題に対処するため,<emph{next-scale prediction} から \emph{next-focus prediction} にパラダイムを書き換えた \textbf{FVAR} を提案する。
提案手法では, 単純なダウンサンプリングではなく, 段階的にボケを減らして, マルチスケールの自己回帰を変換する次のFocus Prediction Paradigm, 物理に一貫性のあるデフォーカスカーネルを用いて, クリーンでエイリアスフリーなマルチスケール表現を構築するためのProgressive Refocusing Pyramid Construction, および, デプロイの単純さを維持しながら, 訓練中にエイリアス情報を効果的に活用する高頻度Residual Learning} を提案する。
具体的には,デフォーカス点展開関数(PSF)カーネルを用いた光学的低域ビューを半径を小さくし,ソースのエイリアスを排除したスムーズなボケ-クラリティー遷移を生成する。
詳細生成をさらに強化するため、クリーン構造とエイリアス残像の両方から学習し、この知識をシームレスな推論のためにバニラVARデプロイメントネットワークに蒸留する高周波残留教師を導入する。
ImageNetの大規模な実験では、FVARはアーティファクトのエイリアスを大幅に削減し、詳細な保存を改善し、テキストの可読性を向上し、既存のVARフレームワークとの完全な互換性で優れたパフォーマンスを実現している。
関連論文リスト
- Learning Deblurring Texture Prior from Unpaired Data with Diffusion Model [92.61216319417208]
画像の劣化に対する新しい拡散モデル(DM)に基づくフレームワークを提案する。
我々の研究は、ぼやけた画像のテクスチャを回復するのに役立つ事前知識を生成するために、DMを実行する。
生成したテクスチャをフル活用するために,テクスチャ転送変換層(TTformer)を提案する。
論文 参考訳(メタデータ) (2025-07-18T01:50:31Z) - MoiréXNet: Adaptive Multi-Scale Demoiréing with Linear Attention Test-Time Training and Truncated Flow Matching Prior [11.753823187605033]
本稿では,A Posteriori (MAP) 推定と高度な深層学習技術を統合することで,画像と映像のデシフティングを実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-19T00:15:07Z) - SparseGS-W: Sparse-View 3D Gaussian Splatting in the Wild with Generative Priors [22.561786156613525]
SparseGS-Wは,非制約画像から大規模シーンを合成する新しいフレームワークである。
我々は,高度にスパースな入力から得られる多視点情報の欠如を補うために,幾何学的先行と制約付き拡散の先行を利用する。
SparseGS-Wは、完全な参照メトリクスだけでなく、FID、ClipIQA、MUSIQなどの一般的な非参照メトリクスでも、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-25T08:40:40Z) - Unpaired Deblurring via Decoupled Diffusion Model [55.21345354747609]
UID-Diffは,未知領域における劣化性能の向上を目的とした生成拡散モデルである。
構造的特徴とぼかしパターン抽出器を別々に用いて, 抽出した特徴は, 合成データに対する教師付きデブロアリングタスクと教師なしのぼかし転送タスクに使用される。
実世界のデータセットの実験では、UID-Diffが既存の最先端の手法よりも、ぼやけた除去と構造保存に優れていることが示されている。
論文 参考訳(メタデータ) (2025-02-03T17:00:40Z) - NeRF-VPT: Learning Novel View Representations with Neural Radiance
Fields via View Prompt Tuning [63.39461847093663]
本研究では,これらの課題に対処するための新しいビュー合成手法であるNeRF-VPTを提案する。
提案するNeRF-VPTは、先行レンダリング結果から得られたRGB情報を、その後のレンダリングステージのインストラクティブな視覚的プロンプトとして機能するカスケーディングビュープロンプトチューニングパラダイムを用いている。
NeRF-VPTは、追加のガイダンスや複雑なテクニックに頼ることなく、トレーニングステージ毎に前のステージレンダリングからRGBデータをサンプリングするだけである。
論文 参考訳(メタデータ) (2024-03-02T22:08:10Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models [56.112302700630806]
我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。
主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。
提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
論文 参考訳(メタデータ) (2023-11-30T02:33:29Z) - Panini-Net: GAN Prior Based Degradation-Aware Feature Interpolation for
Face Restoration [4.244692655670362]
Panini-Netは、顔修復のための劣化認識機能ネットワークである。
抽象表現を学び、様々な劣化を区別する。
マルチ劣化顔復元と超解像のための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-16T07:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。