論文の概要: Head-wise Adaptive Rotary Positional Encoding for Fine-Grained Image Generation
- arxiv url: http://arxiv.org/abs/2510.10489v1
- Date: Sun, 12 Oct 2025 07:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.971273
- Title: Head-wise Adaptive Rotary Positional Encoding for Fine-Grained Image Generation
- Title(参考訳): 微粒化画像生成のための頭部適応型回転位置符号化
- Authors: Jiaye Li, Baoyou Chen, Hui Li, Zilong Dong, Jingdong Wang, Siyu Zhu,
- Abstract要約: RoPE (Rotary Position Embedding) は1次元領域で優れているが, 画像生成への応用には大きな限界がある。
HaroPEは、特異値分解によってパラメータ化される学習可能な線形変換を挿入する、ヘッドワイド適応拡張である。
HaroPEは強力なRoPEベースラインや他の拡張よりも一貫してパフォーマンスを改善している。
- 参考スコア(独自算出の注目度): 35.66580960895196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers rely on explicit positional encoding to model structure in data. While Rotary Position Embedding (RoPE) excels in 1D domains, its application to image generation reveals significant limitations such as fine-grained spatial relation modeling, color cues, and object counting. This paper identifies key limitations of standard multi-dimensional RoPE-rigid frequency allocation, axis-wise independence, and uniform head treatment-in capturing the complex structural biases required for fine-grained image generation. We propose HARoPE, a head-wise adaptive extension that inserts a learnable linear transformation parameterized via singular value decomposition (SVD) before the rotary mapping. This lightweight modification enables dynamic frequency reallocation, semantic alignment of rotary planes, and head-specific positional receptive fields while rigorously preserving RoPE's relative-position property. Extensive experiments on class-conditional ImageNet and text-to-image generation (Flux and MMDiT) demonstrate that HARoPE consistently improves performance over strong RoPE baselines and other extensions. The method serves as an effective drop-in replacement, offering a principled and adaptable solution for enhancing positional awareness in transformer-based image generative models.
- Abstract(参考訳): トランスフォーマーは、データ内のモデル構造に対する明示的な位置エンコーディングに依存している。
RoPE(Rotary Position Embedding)は1Dドメインに優れるが、画像生成への応用により、微細な空間関係モデリング、カラーキュー、オブジェクトカウントといった重要な制限が明らかになった。
本稿では, 微細な画像生成に必要な複雑な構造バイアスを捉えるために, 標準多次元RoPE周波数アロケーション, 軸方向独立性, および均一な頭部処理の鍵となる限界を明らかにする。
本稿では,一意値分解(SVD)によってパラメータ化される学習可能な線形変換を,回転写像の前に挿入する頭部適応型拡張HARoPEを提案する。
この軽量な修正により、RoPEの相対位置特性を厳格に保ちながら、動的周波数再配置、回転平面のセマンティックアライメント、および頭部特異的な位置受容場を可能にする。
クラス条件の画像ネットとテキスト・ツー・イメージ生成(Flux と MMDiT)に関する大規模な実験により、HARoPEは強力なRoPEベースラインや他の拡張よりも一貫して性能を改善していることが示された。
この方法は効果的なドロップイン置換として機能し、トランスフォーマーベースの画像生成モデルにおける位置認識を高めるための原則付き適応可能なソリューションを提供する。
関連論文リスト
- Rotation Equivariant Arbitrary-scale Image Super-Resolution [62.41329042683779]
任意のスケールの超解像(ASISR)は、低解像度の入力画像から任意のスケールの高分解能回復を実現することを目的としている。
本研究では, 回転同変ASISR法の構築に尽力する。
論文 参考訳(メタデータ) (2025-08-07T08:51:03Z) - Context-aware Rotary Position Embedding [0.0]
RoPE(Rotary Positional Embeddings)は、相対的な位置符号化と計算効率との互換性から広く採用されている。
トークン埋め込みを前提とした頭部特異的な周波数パターンを動的に生成するRoPEの新たな一般化であるCARoPE(Context-Aware Rotary Positional Embedding)を提案する。
CaroPEは、RoPEや他の一般的な位置符号化ベースラインを一貫して上回り、より長いコンテキスト長でも非常に低いパープレキシティを実現している。
論文 参考訳(メタデータ) (2025-07-30T20:32:19Z) - cIDIR: Conditioned Implicit Neural Representation for Regularized Deformable Image Registration [0.7022492404644499]
Inlicit Neural Representation (INR)に基づく新しい変形可能な画像登録フレームワークであるcIDIを提案する。
CIDIは、正規化ハイパーパラメータの事前分布に基づいてトレーニングされ、その上でセグメンテーションマスクを観察として使用することで最適化される。
データセット全体で高い精度と堅牢性を達成する。
論文 参考訳(メタデータ) (2025-07-17T09:48:53Z) - ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized by Trainable Commuting Angle Matrices [25.99231204405503]
トレーニング可能な通勤角行列で定義することで回転位置PE(RoPE)を一般化するComRoPEを提案する。
我々は、RoPE方程式の十分な解として、トレーニング可能な通勤角行列を2種類提示する。
我々のフレームワークは,既存の RoPE の定式化を一般化し,将来的な位置符号化研究のための新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-06-04T09:10:02Z) - Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z) - Hierarchical Semantic Regularization of Latent Spaces in StyleGANs [53.98170188547775]
本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。
HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
論文 参考訳(メタデータ) (2022-08-07T16:23:33Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。