論文の概要: SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.22668v1
- Date: Thu, 21 May 2026 16:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.604223
- Title: SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers
- Title(参考訳): SEGA:拡散変換器の分解能外挿のためのスペクトルエネルギーガイド
- Authors: Javad Rajabi, Kimia Shaban, Koorosh Roohi, David B. Lindell, Babak Taati,
- Abstract要約: 拡散変換器(DiT)はテキスト・画像生成の主要なアーキテクチャとして登場したが、トレーニング範囲を超えた解像度で生成すると性能が低下する。
本稿では,各聴覚ステップにおける潜伏者の空間周波数構造に応じて,RoPE成分間の注意を動的に拡大するトレーニングフリー手法SEGAを紹介する。
実験の結果、SEGAは複数の目標解像度にわたる高分解能合成を一貫して改善し、最先端のトレーニングフリーベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 13.063024974189622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion transformers (DiTs) have emerged as a dominant architecture for text-to-image generation, yet their performance drops when generating at resolutions beyond their training range. Existing training-free approaches mitigate this by modifying inference-time attention behavior, often through Rotary Position Embeddings (RoPE) extrapolation combined with attention scaling. However, these strategies apply a uniform and content-agnostic scaling across RoPE components with distinct frequency characteristics, inducing a trade-off between preserving global structure and recovering fine detail. We introduce SEGA, a training-free method that dynamically scales attention across RoPE components according to the latent's spatial-frequency structure at each denoising step. This adaptive scaling improves both structural coherence and fine-detail fidelity. Experiments show that SEGA consistently improves high-resolution synthesis across multiple target resolutions, outperforming state-of-the-art training-free baselines.
- Abstract(参考訳): 拡散変換器(DiT)はテキスト・画像生成の主要なアーキテクチャとして登場したが、トレーニング範囲を超えた解像度で生成すると性能が低下する。
既存のトレーニングフリーアプローチは、しばしばRotary Position Embeddings (RoPE)の外挿とアテンションスケーリングを組み合わせることで、推論時の注意行動を変更することでこれを緩和する。
しかしながら、これらの戦略は、異なる周波数特性を持つRoPEコンポーネントをまたいだ均一かつコンテントに依存しないスケーリングを適用し、グローバルな構造を保存することと細部を回復するの間のトレードオフを引き起こす。
本稿では,各聴覚ステップにおける潜伏者の空間周波数構造に応じて,RoPE成分間の注意を動的に拡大するトレーニングフリー手法SEGAを紹介する。
この適応スケーリングは、構造的コヒーレンスと細部フィデリティの両方を改善する。
実験の結果、SEGAは複数の目標解像度にわたる高分解能合成を一貫して改善し、最先端のトレーニングフリーベースラインよりも優れていた。
関連論文リスト
- ExtraVAR: Stage-Aware RoPE Remapping for Resolution Extrapolation in Visual Autoregressive Models [52.648413887350195]
我々は,グローバルな反復,局所的な反復,詳細劣化を抑制するために,ステージアウェアのRoPEリマッピングを提案する。
また、分解能不変な正規化エントロピーを介して分散を定量化するエントロピー駆動適応アテンションを提案する。
本手法は, 構造コヒーレンスと細部忠実度の両方において, 先行分解能・分光法より常に優れる。
論文 参考訳(メタデータ) (2026-05-11T06:14:38Z) - SHARP: Spectrum-aware Highly-dynamic Adaptation for Resolution Promotion in Remote Sensing Synthesis [14.489371802189426]
リモートセンシング画像は、車両、建物輪郭、道路標識などの空撮リアリズムに不可欠な微細構造を符号化する。
Rotary Position Embedding (RoPE) 再スケーリングによるトレーニング不要の解決促進は、実用的な対策を提供するが、既存の方法はすべて、デノナイジングプロセス全体を通して静的な位置スケーリングルールを適用している。
有理分数時間スケジュールk_rs(t)をRoPEに導入する訓練自由手法であるSHARP(Spectrum-aware Highly-dynamic Adaptation for Resolution promoted)を提案する。
論文 参考訳(メタデータ) (2026-03-23T10:25:45Z) - SR$^{2}$-Net: A General Plug-and-Play Model for Spectral Refinement in Hyperspectral Image Super-Resolution [3.4888894498274747]
HSI-SRは、スペクトル的に忠実で物理的に妥当な特性を維持しながら、空間分解能を高めることを目的としている。
これらの方法はしばしばバンド間のスペクトルの一貫性を無視し、刺激的な振動と物理的に不可解な人工物をもたらす。
本稿では,この問題に対処するための軽量なプラグ・アンド・プレイ方式であるSpectral Rectification Super-Resolution Network (SR$2$-Net)を提案する。
論文 参考訳(メタデータ) (2026-01-29T07:00:00Z) - Iterative Inference-time Scaling with Adaptive Frequency Steering for Image Super-Resolution [75.3690742776891]
適応周波数ステアリング(IAFS)を用いた反復拡散推論時間スケーリングを提案する。
IAFSは、構造的偏差の反復的補正によって生成した画像を徐々に精細化することで、知覚品質と構造的忠実性のバランスをとるという課題に対処する。
実験の結果、IAFSは知覚と忠実性の対立を効果的に解決し、知覚の細部と構造的精度を一貫して改善し、既存の推論時間スケーリング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-12-29T15:09:20Z) - EvoIR: Towards All-in-One Image Restoration via Evolutionary Frequency Modulation [54.37259500020744]
EvoIRは、動的および適応的な画像復元のための進化周波数変調を導入する、AiOIR固有のフレームワークである。
具体的には、EvoIRは周波数変調モジュール(FMM)を採用し、特徴を高周波数分岐と低周波数分岐に明示的に分解する。
進化最適化戦略(EOS: Evolutionary Optimization Strategy)は、人口ベースの進化過程を通じて、周波数認識の目的を反復的に調整する。
論文 参考訳(メタデータ) (2025-12-04T18:59:10Z) - Edge-Aware Normalized Attention for Efficient and Detail-Preserving Single Image Super-Resolution [27.3322913419539]
単一高分解能超解像(SISR)は、単一の低分解能観測から構造的に忠実な高周波成分を回収することが曖昧であるため、非常に不明瞭である。
既存のエッジ対応の手法では、エッジ先行または注意枝をますます複雑なバックボーンにアタッチすることが多いが、アドホック融合は冗長性、不安定な最適化、あるいは限られた構造的利得をもたらすことが多い。
このギャップには, エッジ特徴量と中間特徴量から適応変調マップを導出するエッジ誘導型アテンション機構を用いて対処し, それらを正規化および再重み付けに応用し, 微妙なテクスチャを抑えつつ, 構造的に健全な領域を選択的に増幅する。
論文 参考訳(メタデータ) (2025-09-18T02:31:24Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Unleashing Correlation and Continuity for Hyperspectral Reconstruction from RGB Images [64.80875911446937]
RGB画像からのHSI再構成のための相関連続性ネットワーク(CCNet)を提案する。
局所スペクトルの相関について,GrSCM(Group-wise Spectral correlation Modeling)モジュールを紹介する。
グローバルスペクトルの連続性のために、我々はNeSCMモジュールを設計する。
論文 参考訳(メタデータ) (2025-01-02T15:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。