論文の概要: One Attention, One Scale: Phase-Aligned Rotary Positional Embeddings for Mixed-Resolution Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2511.19778v1
- Date: Mon, 24 Nov 2025 23:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.202581
- Title: One Attention, One Scale: Phase-Aligned Rotary Positional Embeddings for Mixed-Resolution Diffusion Transformer
- Title(参考訳): 1つの注意:1つのスケール:混合解像拡散変圧器用相調整ロータリー位置埋め込み
- Authors: Haoyu Wu, Jingyi Xu, Qiaomu Miao, Dimitris Samaras, Hieu Le,
- Abstract要約: CRPA(Cross-Resolution Phase-Aligned Attention)は、トレーニング不要のドロップイン修正で、ソースでのこの障害を取り除く。
CRPAはトレーニング済みのDiTと完全に互換性があり、すべてのヘッドとレイヤを均一に安定化させる。
CRPAにより高忠実かつ高効率な混合分解能生成が可能であり、画像およびビデオ生成における従来の最先端手法よりも優れることを示す。
- 参考スコア(独自算出の注目度): 48.30024190686566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify a core failure mode that occurs when using the usual linear interpolation on rotary positional embeddings (RoPE) for mixed-resolution denoising with Diffusion Transformers. When tokens from different spatial grids are mixed, the attention mechanism collapses. The issue is structural. Linear coordinate remapping forces a single attention head to compare RoPE phases sampled at incompatible rates, creating phase aliasing that destabilizes the score landscape. Pretrained DiTs are especially brittle-many heads exhibit extremely sharp, periodic phase selectivity-so even tiny cross-rate inconsistencies reliably cause blur, artifacts, or full collapse. To this end, our main contribution is Cross-Resolution Phase-Aligned Attention (CRPA), a training-free drop-in fix that eliminates this failure at its source. CRPA modifies only the RoPE index map for each attention call: all Q/K positions are expressed on the query's stride so that equal physical distances always induce identical phase increments. This restores the precise phase patterns that DiTs rely on. CRPA is fully compatible with pretrained DiTs, stabilizes all heads and layers uniformly. We demonstrate that CRPA enables high-fidelity and efficient mixed-resolution generation, outperforming previous state-of-the-art methods on image and video generation.
- Abstract(参考訳): 回転位置埋め込み(RoPE)における通常の線形補間法を用いて拡散変圧器を用いた混合分解能復調時に発生するコア故障モードを同定する。
異なる空間格子からのトークンが混合されると、注意機構が崩壊する。
問題は構造的だ。
線形座標のリマッピングは、1つのアテンションヘッドに不整合速度でサンプリングされたRoPE位相を比較し、スコアランドスケープを不安定にする位相エイリアスを生成する。
事前訓練されたDiTは、非常に鋭く周期的な位相選択性を示す、特に脆い多くの頭部である。
この目的のために、我々の主な貢献はCRPA(Cross-Resolution Phase-Aligned Attention)です。
CRPAは、各アテンションコールのRoPEインデックスマップだけを変更し、全てのQ/K位置がクエリのストライド上に表現され、同じ物理距離が常に同じ位相インクリメントを誘導する。
これにより、DiTsが依存する正確なフェーズパターンが復元される。
CRPAはトレーニング済みのDiTと完全に互換性があり、すべてのヘッドとレイヤを均一に安定化させる。
CRPAにより高忠実かつ高効率な混合分解能生成が可能であり、画像およびビデオ生成における従来の最先端手法よりも優れることを示す。
関連論文リスト
- From Circuits to Dynamics: Understanding and Stabilizing Failure in 3D Diffusion Transformers [25.11520870904882]
3次元拡散変圧器は破滅的な障害のモードを示す。
私たちはこの現象をメルトダウンと呼ぶ。
スパース・ポイント・クラウド・コンディショニングを安定化するテスト時間制御であるPowerRemapを導入する。
論文 参考訳(メタデータ) (2026-02-11T18:42:05Z) - Rotary Positional Embeddings as Phase Modulation: Theoretical Bounds on the RoPE Base for Long-Context Transformers [0.5414847001704249]
ロータリー位置埋め込み (RoPE) は、トークンの位置を符号化するために大きな言語モデルで広く使われている。
目的コンテキスト長上の位置コヒーレンスを維持するために必要となる RoPE 基底パラメータの下位境界を導出する。
我々はこの解析を深部変圧器に拡張し, 層間における繰り返し回転変調が角方向のずれを生じさせることを示した。
下位境界と上部境界を合わせて、長文変換器の精度と深さに依存した実現可能性領域をゴールディロックゾーンと定義する。
論文 参考訳(メタデータ) (2026-02-11T15:50:07Z) - Unifying Heterogeneous Degradations: Uncertainty-Aware Diffusion Bridge Model for All-in-One Image Restoration [39.5698877093219]
画像復元のための不確実性認識拡散ブリッジモデル(UDBM)を提案する。
UDBMは、AiOIRを画素ワイド不確実性による輸送問題として再構成する。
単一の推論ステップで、さまざまな復元タスクにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-01-29T12:02:42Z) - Universal composite phase gates with tunable target phase [0.0]
連続的な調整可能な目標位相を持つ普遍合成相ゲートを構築するための体系的手法を提案する。
標準2レベルモデルにおける数値シミュレーションにより高次誤差抑制が確認され、同時にパルス領域とデチューニング誤差の広い範囲にわたって広範に平坦な高忠実度台地が示される。
論文 参考訳(メタデータ) (2026-01-20T12:53:05Z) - NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation [88.09231548061295]
相保存拡散-PDは拡散過程のモデル非依存的な再構成である。
-PDは大きさをランダム化しながら入力フェーズを保存し、アーキテクチャ変更なしに構造整合生成を可能にする。
-PDは推論時間を追加せず、画像やビデオの拡散モデルと互換性がある。
論文 参考訳(メタデータ) (2025-12-04T18:59:18Z) - PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs [57.790910044227935]
ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
本稿では, 位相アグリゲード平滑化(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用して, 出力を集約する学習自由機構である。
解析の結果,RoPE回転ロジットは,時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,マルチフェーズ平均化は,Nyquist-valid サンプリング下での頭当たりスペクトルを保ちながら高周波リップルを減衰させることがわかった。
論文 参考訳(メタデータ) (2025-11-14T05:56:47Z) - Morphing Through Time: Diffusion-Based Bridging of Temporal Gaps for Robust Alignment in Change Detection [51.56484100374058]
既存の変更検出ネットワークを変更することなく空間的・時間的ロバスト性を改善するモジュールパイプラインを導入する。
拡散モジュールは、大きな外観ギャップをブリッジする中間変形フレームを合成し、RoMaは段階的に対応を推定できる。
LEVIR-CD、WHU-CD、DSIFN-CDの実験は、登録精度と下流変化検出の両方において一貫した利得を示した。
論文 参考訳(メタデータ) (2025-11-11T08:40:28Z) - Holographic Transformers for Complex-Valued Signal Processing: Integrating Phase Interference into Self-Attention [19.574464511943074]
我々は、波動干渉原理を自己注意に組み込んだ物理に着想を得たアーキテクチャであるホログラフィックトランスフォーマーを紹介する。
デュアルヘッドデコーダは同時に入力を再構築してタスク出力を予測する。
PolSAR画像分類と無線チャネル予測の実験は、高い分類精度とF1スコア、低回帰誤差、位相摂動に対するロバスト性の向上を示す。
論文 参考訳(メタデータ) (2025-09-14T15:24:43Z) - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond [84.56978780892783]
制御点が限られている複数のTPSを、より柔軟で強力な変換に繰り返し結合するCoupledTPSを提案する。
注記コストを考慮に入れた半教師付き学習手法を開発し、ラベルのないデータを活用することにより、ワープ品質を向上させる。
実験は、回転補正のための既存の最先端解よりもCoupledTPSの優位性と普遍性を示す。
論文 参考訳(メタデータ) (2024-01-24T13:03:28Z) - Adaptive Multi-step Refinement Network for Robust Point Cloud Registration [82.64560249066734]
ポイントクラウド登録は、同じシーンの2つのポイントクラウド間の相対的な厳密な変換を推定する。
本稿では,前ステップからの情報を活用することで,各ステップの登録品質を向上する適応型多段階改良ネットワークを提案する。
本手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークの両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-05T18:59:41Z) - Improving Misaligned Multi-modality Image Fusion with One-stage
Progressive Dense Registration [67.23451452670282]
多モード画像間の相違は、画像融合の課題を引き起こす。
マルチスケールプログレッシブ・センス・レジストレーション方式を提案する。
このスキームは、一段階最適化のみで粗大な登録を行う。
論文 参考訳(メタデータ) (2023-08-22T03:46:24Z) - Rotation-Invariant Transformer for Point Cloud Matching [42.5714375149213]
我々は,回転不変変換器であるRoITrを導入し,点クラウドマッチングタスクにおけるポーズ変動に対処する。
本稿では,自己認識機構によって学習した,回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。
RoITrは、Inlier RatioとRegistration Recallの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。
論文 参考訳(メタデータ) (2023-03-14T20:55:27Z) - Is Perfect Filtering Enough Leading to Perfect Phase Correction for dMRI
data? [0.0]
ノイズの符号記号を識別できないため, 位相補正には完全フィルタでさえ不十分である。
本稿では,ノイズサインのシンボルを簡便に識別するキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2021-06-13T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。