論文の概要: Untwisting RoPE: Frequency Control for Shared Attention in DiTs
- arxiv url: http://arxiv.org/abs/2602.05013v1
- Date: Wed, 04 Feb 2026 20:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.598012
- Title: Untwisting RoPE: Frequency Control for Shared Attention in DiTs
- Title(参考訳): Untwisting RoPE:DiTにおける共有注意のための周波数制御
- Authors: Aryan Mikaeili, Or Patashnik, Andrea Tagliasacchi, Daniel Cohen-Or, Ali Mahdavi-Amiri,
- Abstract要約: 位置符号化はトランスフォーマーベースの生成モデルに不可欠である。
ロータリー・ポジショナル・エンベディング (RoPE) は, 異なる位置感性を有する周波数成分に自然に分解されることを示す。
本稿では,厳密な位置アライメントよりも意味的類似性を反映するように,RoPE周波数帯域を選択的に変調する手法を提案する。
- 参考スコア(独自算出の注目度): 84.14005261938284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Positional encodings are essential to transformer-based generative models, yet their behavior in multimodal and attention-sharing settings is not fully understood. In this work, we present a principled analysis of Rotary Positional Embeddings (RoPE), showing that RoPE naturally decomposes into frequency components with distinct positional sensitivities. We demonstrate that this frequency structure explains why shared-attention mechanisms, where a target image is generated while attending to tokens from a reference image, can lead to reference copying, in which the model reproduces content from the reference instead of extracting only its stylistic cues. Our analysis reveals that the high-frequency components of RoPE dominate the attention computation, forcing queries to attend mainly to spatially aligned reference tokens and thereby inducing this unintended copying behavior. Building on these insights, we introduce a method for selectively modulating RoPE frequency bands so that attention reflects semantic similarity rather than strict positional alignment. Applied to modern transformer-based diffusion architectures, where all tokens share attention, this modulation restores stable and meaningful shared attention. As a result, it enables effective control over the degree of style transfer versus content copying, yielding a proper style-aligned generation process in which stylistic attributes are transferred without duplicating reference content.
- Abstract(参考訳): 位置エンコーディングはトランスフォーマーベースの生成モデルには不可欠であるが、マルチモーダルおよびアテンション共有設定におけるそれらの振る舞いは、完全には理解されていない。
本研究では,RoPEが自然に位置感性が異なる周波数成分に分解されることを示すRotary Positional Embeddings (RoPE) の原理的解析について述べる。
この周波数構造は、参照画像からのトークンに出席しながらターゲット画像を生成する共有アテンション機構が、参照コピーに繋がる可能性がある理由を説明する。
解析の結果,RoPEの高周波成分が注意計算を支配しており,クエリを主に空間的に整列した参照トークンに従わざるを得ず,意図しない複製動作を誘発することがわかった。
これらの知見に基づいて,厳密な位置アライメントよりも意味的類似性を反映するように,RoPE周波数帯域を選択的に変調する手法を提案する。
全てのトークンが注意を共有できる現代のトランスフォーマーベースの拡散アーキテクチャーに適用すると、この変調は安定かつ有意義な共有注意を復元する。
その結果、スタイル転送とコンテンツコピーの程度を効果的に制御することができ、参照内容を重複することなくスタイル属性を変換する適切なスタイル整列生成プロセスが得られる。
関連論文リスト
- ROAP: A Reading-Order and Attention-Prior Pipeline for Optimizing Layout Transformers in Key Information Extraction [5.594845708011402]
本稿では,レイアウト変換器のアテンション分布を最適化する軽量かつアーキテクチャに依存しないパイプラインであるROAPを提案する。
FUNSDおよびCORDベンチマークの実験により、ROAPはバックボーンの性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-01-09T02:02:37Z) - Context-aware Rotary Position Embedding [0.0]
RoPE(Rotary Positional Embeddings)は、相対的な位置符号化と計算効率との互換性から広く採用されている。
トークン埋め込みを前提とした頭部特異的な周波数パターンを動的に生成するRoPEの新たな一般化であるCARoPE(Context-Aware Rotary Positional Embedding)を提案する。
CaroPEは、RoPEや他の一般的な位置符号化ベースラインを一貫して上回り、より長いコンテキスト長でも非常に低いパープレキシティを実現している。
論文 参考訳(メタデータ) (2025-07-30T20:32:19Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - Unpacking Positional Encoding in Transformers: A Spectral Analysis of Content-Position Coupling [10.931433906211534]
ポジショナルエンコーディング(PE)は、トランスフォーマーがシーケンシャルな構造をモデル化できるようにするために不可欠である。
本稿では,Toeplitzと関連する行列のスペクトル特性からPEを解析する統一フレームワークを提案する。
我々は, PE設計の鍵となる原理として, 相対配置Toeplitz信号を用いた明示的コンテンツ相対混合を確立する。
論文 参考訳(メタデータ) (2025-05-19T12:11:13Z) - Beyond Position: the emergence of wavelet-like properties in Transformers [6.552700667389349]
ウェーブレット変換に類似したマルチレゾリューション処理を実装するために,注目ヘッドが進化することを示す。
その結果,現代のトランスフォーマーの有効性は,最適な多分解能分解を自発的に行う能力に起因していることが示唆された。
論文 参考訳(メタデータ) (2024-10-23T17:48:28Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。