論文の概要: Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization
- arxiv url: http://arxiv.org/abs/2504.06629v2
- Date: Thu, 26 Jun 2025 01:23:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 15:38:00.176722
- Title: Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization
- Title(参考訳): 画像復元変圧器のトレーニングダイナミクスの解析 : レイヤー正規化への再考
- Authors: MinKyu Lee, Sangeek Hyun, Woojin Jun, Hyunjun Kim, Jiwoo Chung, Jae-Pil Heo,
- Abstract要約: 従来のLayerNormは、最大100万のスケールで機能規模のばらつきを導いており、チャネルワイドエントロピーを崩壊させる。
我々は,従来のLayerNormに代えて,驚くほどシンプルなドロップイン・リプレースである Image Restoration Transformer Tailored Layer Normalization (i-LN) を導入する。
- 参考スコア(独自算出の注目度): 20.67671141789497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates the internal training dynamics of image restoration~(IR) Transformers and uncovers a critical yet overlooked issue: conventional LayerNorm leads feature magnitude divergence, up to a million scale, and collapses channel-wise entropy. We analyze this phenomenon from the perspective of networks attempting to bypass constraints imposed by conventional LayerNorm due to conflicts against requirements in IR tasks. Accordingly, we address two misalignments between LayerNorm and IR tasks, and later show that addressing these mismatches leads to both stabilized training dynamics and improved IR performance. Specifically, conventional LayerNorm works in a per-token manner, disrupting spatial correlations between tokens, essential in IR tasks. Also, it employs an input-independent normalization that restricts the flexibility of feature scales, required to preserve input-specific statistics. Together, these mismatches significantly hinder IR Transformer's ability to accurately preserve low-level features throughout the network. To this end, we introduce Image Restoration Transformer Tailored Layer Normalization~(i-LN), a surprisingly simple drop-in replacement for conventional LayerNorm. We propose to normalize features in a holistic manner across the entire spatio-channel dimension, preserving spatial relationships among individual tokens. Additionally, we introduce an input-adaptive rescaling strategy that maintains the feature range flexibility required by individual inputs. Together, these modifications effectively contribute to preserving low-level feature statistics of inputs throughout IR Transformers. Experimental results verify that this combined strategy enhances both the stability and performance of IR Transformers across various IR tasks.
- Abstract(参考訳): この研究は、画像復元〜(IR)トランスフォーマーの内部トレーニングのダイナミクスを調査し、批判的だが見過ごされている問題を明らかにする。
我々は、この現象を、従来のLayerNormの制約を回避しようとするネットワークの観点から分析する。
したがって、LayerNormとIRタスクの2つのミスアライメントに対処し、後にこれらのミスマッチに対処することで、トレーニングダイナミクスの安定化とIR性能の向上がもたらされることを示す。
具体的には、従来のLayerNormはトークン間の空間的相関を乱し、IRタスクに必須である。
また、入力固有の統計を保存するために必要な特徴尺度の柔軟性を制限する、入力非依存の正規化も採用している。
これらのミスマッチは、IRトランスフォーマーのネットワーク全体の低レベル機能を正確に保存する能力を著しく損なう。
この目的のために、従来のLayerNormの驚くほどシンプルなドロップイン置換である Image Restoration Transformer Tailored Layer Normalization~(i-LN)を紹介する。
本研究では,各トークン間の空間的関係を保ちながら,空間的特徴を全チャネル次元にわたって包括的に正規化することを提案する。
さらに,個々の入力が必要とする特徴範囲の柔軟性を維持するために,入力適応型再スケーリング戦略を導入する。
これらの修正は、IRトランスフォーマー全体の入力の低レベル特徴統計の保存に有効である。
実験により, この組み合わせにより, IR変換器の安定性と性能が向上することが確認された。
関連論文リスト
- Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - DINT Transformer [5.990713912057883]
DIFF変換器は、微分アテンション機構を導入することにより、無関係なコンテキスト干渉の問題に対処する。
差動積分機構を組み込んでDIFF変換器を拡張するDINT変換器を提案する。
論文 参考訳(メタデータ) (2025-01-29T08:53:29Z) - Sharing Key Semantics in Transformer Makes Efficient Image Restoration [148.22790334216117]
視覚変換器(ViT)の基盤となる自己注意機構は、すべてのグローバルな手がかりを包含する傾向がある。
劣化した画像の小さな部分、特にセマンティックに密に整合した部分では、回復プロセスを支援するために特に関連する情報を提供する。
本稿では, IR(e, SemanIR) 用の Transformer を通じて鍵セマンティクスを共有することで, IR の性能向上を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:45:34Z) - Learning Exhaustive Correlation for Spectral Super-Resolution: Where Spatial-Spectral Attention Meets Linear Dependence [26.1694389791047]
スペクトル超解像は、容易に取得可能なRGB画像からハイパースペクトル像(HSI)を復元することを目的としている。
既存のTransformerのボトルネックは2種類あり、パフォーマンスの改善と実用性に制限がある。
スペクトル超解像のための新しい Exhaustive correlation Transformer (ECT) を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:30:07Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Exploring Invariant Representation for Visible-Infrared Person
Re-Identification [77.06940947765406]
異なるスペクトルを横断する歩行者にアイデンティティを関連付けることを目的とした、クロススペクトルの人物再識別は、モダリティの相違の主な課題に直面している。
本稿では、ロバスト機能マイニングネットワーク(RFM)と呼ばれるエンドツーエンドのハイブリッド学習フレームワークにおいて、画像レベルと特徴レベルの両方の問題に対処する。
RegDBとSYSU-MM01という2つの標準的なクロススペクトル人物識別データセットの実験結果により,最先端の性能が示された。
論文 参考訳(メタデータ) (2023-02-02T05:24:50Z) - Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。
目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文 参考訳(メタデータ) (2023-01-19T18:39:48Z) - Large-scale Global Low-rank Optimization for Computational Compressed
Imaging [8.594666859332124]
本稿では,グローバルな自己相似性と高効率な大規模再構成を実現するグローバル低ランク(GLR)最適化手法を提案する。
深層学習における自己認識機構に触発されたGLRは、従来の一様選択の代わりに特徴検出によって画像パッチを抽出する。
時間・周波数・スペクトル次元におけるGLRの有効性を実験的に実証した。
論文 参考訳(メタデータ) (2023-01-08T14:12:51Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Learning High-Precision Bounding Box for Rotated Object Detection via
Kullback-Leibler Divergence [100.6913091147422]
既存の回転物体検出器は、主に水平検出パラダイムから受け継がれている。
本稿では,回転回帰損失の設計を帰納パラダイムから導出手法に変更することを目的としている。
論文 参考訳(メタデータ) (2021-06-03T14:29:19Z) - Multivariate Functional Regression via Nested Reduced-Rank
Regularization [2.730097437607271]
多変量関数応答と予測器を備えた回帰モデルに適用するネスト型低ランク回帰(NRRR)手法を提案する。
非漸近解析により、NRRRは少なくとも低ランク回帰と同等の誤差率を達成できることを示す。
NRRRを電力需要問題に適用し、日中電力消費の軌跡と日中電力消費の軌跡を関連づける。
論文 参考訳(メタデータ) (2020-03-10T14:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。