論文の概要: One Attention, One Scale: Phase-Aligned Rotary Positional Embeddings for Mixed-Resolution Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2511.19778v1
- Date: Mon, 24 Nov 2025 23:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.202581
- Title: One Attention, One Scale: Phase-Aligned Rotary Positional Embeddings for Mixed-Resolution Diffusion Transformer
- Title(参考訳): 1つの注意:1つのスケール:混合解像拡散変圧器用相調整ロータリー位置埋め込み
- Authors: Haoyu Wu, Jingyi Xu, Qiaomu Miao, Dimitris Samaras, Hieu Le,
- Abstract要約: CRPA(Cross-Resolution Phase-Aligned Attention)は、トレーニング不要のドロップイン修正で、ソースでのこの障害を取り除く。
CRPAはトレーニング済みのDiTと完全に互換性があり、すべてのヘッドとレイヤを均一に安定化させる。
CRPAにより高忠実かつ高効率な混合分解能生成が可能であり、画像およびビデオ生成における従来の最先端手法よりも優れることを示す。
- 参考スコア(独自算出の注目度): 48.30024190686566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify a core failure mode that occurs when using the usual linear interpolation on rotary positional embeddings (RoPE) for mixed-resolution denoising with Diffusion Transformers. When tokens from different spatial grids are mixed, the attention mechanism collapses. The issue is structural. Linear coordinate remapping forces a single attention head to compare RoPE phases sampled at incompatible rates, creating phase aliasing that destabilizes the score landscape. Pretrained DiTs are especially brittle-many heads exhibit extremely sharp, periodic phase selectivity-so even tiny cross-rate inconsistencies reliably cause blur, artifacts, or full collapse. To this end, our main contribution is Cross-Resolution Phase-Aligned Attention (CRPA), a training-free drop-in fix that eliminates this failure at its source. CRPA modifies only the RoPE index map for each attention call: all Q/K positions are expressed on the query's stride so that equal physical distances always induce identical phase increments. This restores the precise phase patterns that DiTs rely on. CRPA is fully compatible with pretrained DiTs, stabilizes all heads and layers uniformly. We demonstrate that CRPA enables high-fidelity and efficient mixed-resolution generation, outperforming previous state-of-the-art methods on image and video generation.
- Abstract(参考訳): 回転位置埋め込み(RoPE)における通常の線形補間法を用いて拡散変圧器を用いた混合分解能復調時に発生するコア故障モードを同定する。
異なる空間格子からのトークンが混合されると、注意機構が崩壊する。
問題は構造的だ。
線形座標のリマッピングは、1つのアテンションヘッドに不整合速度でサンプリングされたRoPE位相を比較し、スコアランドスケープを不安定にする位相エイリアスを生成する。
事前訓練されたDiTは、非常に鋭く周期的な位相選択性を示す、特に脆い多くの頭部である。
この目的のために、我々の主な貢献はCRPA(Cross-Resolution Phase-Aligned Attention)です。
CRPAは、各アテンションコールのRoPEインデックスマップだけを変更し、全てのQ/K位置がクエリのストライド上に表現され、同じ物理距離が常に同じ位相インクリメントを誘導する。
これにより、DiTsが依存する正確なフェーズパターンが復元される。
CRPAはトレーニング済みのDiTと完全に互換性があり、すべてのヘッドとレイヤを均一に安定化させる。
CRPAにより高忠実かつ高効率な混合分解能生成が可能であり、画像およびビデオ生成における従来の最先端手法よりも優れることを示す。
関連論文リスト
- Holographic Transformers for Complex-Valued Signal Processing: Integrating Phase Interference into Self-Attention [19.574464511943074]
我々は、波動干渉原理を自己注意に組み込んだ物理に着想を得たアーキテクチャであるホログラフィックトランスフォーマーを紹介する。
デュアルヘッドデコーダは同時に入力を再構築してタスク出力を予測する。
PolSAR画像分類と無線チャネル予測の実験は、高い分類精度とF1スコア、低回帰誤差、位相摂動に対するロバスト性の向上を示す。
論文 参考訳(メタデータ) (2025-09-14T15:24:43Z) - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond [84.56978780892783]
制御点が限られている複数のTPSを、より柔軟で強力な変換に繰り返し結合するCoupledTPSを提案する。
注記コストを考慮に入れた半教師付き学習手法を開発し、ラベルのないデータを活用することにより、ワープ品質を向上させる。
実験は、回転補正のための既存の最先端解よりもCoupledTPSの優位性と普遍性を示す。
論文 参考訳(メタデータ) (2024-01-24T13:03:28Z) - Adaptive Multi-step Refinement Network for Robust Point Cloud Registration [82.64560249066734]
ポイントクラウド登録は、同じシーンの2つのポイントクラウド間の相対的な厳密な変換を推定する。
本稿では,前ステップからの情報を活用することで,各ステップの登録品質を向上する適応型多段階改良ネットワークを提案する。
本手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークの両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-05T18:59:41Z) - Improving Misaligned Multi-modality Image Fusion with One-stage
Progressive Dense Registration [67.23451452670282]
多モード画像間の相違は、画像融合の課題を引き起こす。
マルチスケールプログレッシブ・センス・レジストレーション方式を提案する。
このスキームは、一段階最適化のみで粗大な登録を行う。
論文 参考訳(メタデータ) (2023-08-22T03:46:24Z) - Rotation-Invariant Transformer for Point Cloud Matching [42.5714375149213]
我々は,回転不変変換器であるRoITrを導入し,点クラウドマッチングタスクにおけるポーズ変動に対処する。
本稿では,自己認識機構によって学習した,回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。
RoITrは、Inlier RatioとRegistration Recallの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。
論文 参考訳(メタデータ) (2023-03-14T20:55:27Z) - Is Perfect Filtering Enough Leading to Perfect Phase Correction for dMRI
data? [0.0]
ノイズの符号記号を識別できないため, 位相補正には完全フィルタでさえ不十分である。
本稿では,ノイズサインのシンボルを簡便に識別するキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2021-06-13T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。