論文の概要: ExtraVAR: Stage-Aware RoPE Remapping for Resolution Extrapolation in Visual Autoregressive Models
- arxiv url: http://arxiv.org/abs/2605.10045v1
- Date: Mon, 11 May 2026 06:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.567454
- Title: ExtraVAR: Stage-Aware RoPE Remapping for Resolution Extrapolation in Visual Autoregressive Models
- Title(参考訳): ExtraVAR:視覚的自己回帰モデルにおける分解能外挿のためのステージ対応RoPEリマッピング
- Authors: Feihong Yan, Shaoyu Liu, Haixuan Wang, Shuai Lu, Linfeng Zhang, Huiqi Li, Xiangyang Ji,
- Abstract要約: 我々は,グローバルな反復,局所的な反復,詳細劣化を抑制するために,ステージアウェアのRoPEリマッピングを提案する。
また、分解能不変な正規化エントロピーを介して分散を定量化するエントロピー駆動適応アテンションを提案する。
本手法は, 構造コヒーレンスと細部忠実度の両方において, 先行分解能・分光法より常に優れる。
- 参考スコア(独自算出の注目度): 52.648413887350195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Autoregressive (VAR) models have emerged as a strong alternative to diffusion for image synthesis, yet their fixed training resolution prevents direct generation at higher resolutions. Naively transferring training-free extrapolation methods from LLMs or diffusion models to VAR yields three characteristic failure modes: global repetition, local repetition, and detail degradation. We trace them to a unified band-stage mismatch: VAR generates images in a coarse-to-fine, scale-wise process where each stage is driven by a distinct dominant RoPE frequency band, and each failure mode emerges when the dominant band of a particular stage is disrupted. Building on this insight, we propose Stage-Aware RoPE Remapping, a training-free strategy that assigns each frequency band a stage-specific remapping rule, jointly suppressing all three failure modes. We further observe that attention becomes systematically dispersed as the image resolution increases. Existing methods typically depend on predefined attention scaling factors, which are neither adaptive to the target resolution nor capable of faithfully capturing the actual extent of attention dispersion. We therefore propose Entropy-Driven Adaptive Attention Calibration, which quantifies dispersion via a resolution-invariant normalized entropy and yields a closed-form per-head scaling factor that realigns the extrapolated-resolution attention entropy with its training-resolution counterpart. Extensive experiments show that our method consistently outperforms prior resolution-extrapolation methods in both structural coherence and fine-detail fidelity. Our code is available at https://github.com/feihongyan1/ExtraVAR.
- Abstract(参考訳): Visual Autoregressive (VAR) モデルは、画像合成の拡散の強力な代替手段として登場したが、その固定されたトレーニング解像度は、高解像度での直接生成を妨げている。
LLMや拡散モデルからVARへ学習自由な外挿法をネーティブに転送すると、大域的反復、局所的反復、詳細劣化の3つの特徴的な障害モードが得られる。
VARは、各ステージが独立した支配的なRoPE周波数帯域によって駆動され、各障害モードが特定のステージの支配的なバンドが破壊されたときに出現する粗大でスケールワイズなプロセスで画像を生成する。
この知見に基づいて、各周波数帯にステージ固有のリマッピングルールを割り当てるトレーニングフリー戦略であるStage-Aware RoPE Remappingを提案し、3つの障害モード全てを共同で抑制する。
さらに、画像の解像度が大きくなるにつれて注意が体系的に分散するのを観察する。
既存の手法は通常、対象の解像度に適応せず、実際の注意分散の程度を忠実に把握できない事前定義された注意スケーリング因子に依存している。
そこで本研究では,分解能不変な正規化エントロピーによる分散の定量化と,そのトレーニング分解能との外挿分解能アダプティブエントロピーを両立させる閉形式毎のスケーリング係数を導出するエントロピー駆動適応アダプティブアテンションキャリブレーションを提案する。
本手法は, 構造的コヒーレンスと細粒度忠実度の両方において, 常に先行分解能・分光法より優れることを示す。
私たちのコードはhttps://github.com/feihongyan1/ExtraVAR.comで利用可能です。
関連論文リスト
- InfScene-SR: Spatially Continuous Inference for Arbitrary-Size Image Super-Resolution [3.6762434952581713]
InfScene-SRは、空間的に連続した超解像を可能にするフレームワークである。
拡散モデルの反復的精密化過程を、新しいガイド付きおよび分散補正融合機構で適用する。
論文 参考訳(メタデータ) (2026-02-23T11:34:59Z) - Robust Posterior Diffusion-based Sampling via Adaptive Guidance Scale [39.27744518020771]
逆プロブレム定式化のための拡散過程を導出する適応的確率ステップサイズ戦略を提案する。
結果として得られたアプローチであるAdaptive Posterior diffusion Smpling (AdaPS)は、ハイパーフリーであり、多様な画像タスクにおける再構成品質を改善する。
論文 参考訳(メタデータ) (2025-11-23T14:37:59Z) - Self-Cascaded Diffusion Models for Arbitrary-Scale Image Super-Resolution [9.322053509028832]
任意スケール画像超解像のための自己カスケード拡散フレームワークCasArbiを提案する。
座標誘導残差拡散モデルにより連続画像表現の学習が可能となる。
私たちの実験では、CasArbiは知覚と歪みの両方のパフォーマンス指標において、先行技術よりも優れています。
論文 参考訳(メタデータ) (2025-06-09T14:43:21Z) - FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion [63.609399000712905]
スケールした解像度での推論は反復的なパターンと構造的歪みをもたらす。
これらの問題を解決するために組み合わせた2つの単純なモジュールを提案する。
我々の手法はファム拡散と呼ばれ、任意の潜在拡散モデルにシームレスに統合でき、追加の訓練を必要としない。
論文 参考訳(メタデータ) (2024-11-27T17:51:44Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。