論文の概要: Feature Modulation Transformer: Cross-Refinement of Global
Representation via High-Frequency Prior for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2308.05022v2
- Date: Sat, 12 Aug 2023 10:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 18:23:27.220818
- Title: Feature Modulation Transformer: Cross-Refinement of Global
Representation via High-Frequency Prior for Image Super-Resolution
- Title(参考訳): 特徴変調変換器:画像超解像に先立つ高周波によるグローバル表現のクロスリファインメント
- Authors: Ao Li, Le Zhang, Yun Liu, Ce Zhu
- Abstract要約: クロスリファインメント適応型特徴変調トランス(CRAFT)
提案手法であるクロスリファインメント適応型特徴変調トランス (CRAFT) は, 畳み込み構造と変圧器構造の強度を統合する。
複数のデータセットに対する実験により、CRAFTはより少ないパラメータを使用しながら、最先端のメソッドを最大0.29dBで上回ります。
- 参考スコア(独自算出の注目度): 35.27690082697127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods have exhibited remarkable potential in single image
super-resolution (SISR) by effectively extracting long-range dependencies.
However, most of the current research in this area has prioritized the design
of transformer blocks to capture global information, while overlooking the
importance of incorporating high-frequency priors, which we believe could be
beneficial. In our study, we conducted a series of experiments and found that
transformer structures are more adept at capturing low-frequency information,
but have limited capacity in constructing high-frequency representations when
compared to their convolutional counterparts. Our proposed solution, the
cross-refinement adaptive feature modulation transformer (CRAFT), integrates
the strengths of both convolutional and transformer structures. It comprises
three key components: the high-frequency enhancement residual block (HFERB) for
extracting high-frequency information, the shift rectangle window attention
block (SRWAB) for capturing global information, and the hybrid fusion block
(HFB) for refining the global representation. Our experiments on multiple
datasets demonstrate that CRAFT outperforms state-of-the-art methods by up to
0.29dB while using fewer parameters. The source code will be made available at:
https://github.com/AVC2-UESTC/CRAFT-SR.git.
- Abstract(参考訳): トランスフォーマーに基づく手法は、長距離依存関係を効果的に抽出することにより、単一画像超解像(SISR)において顕著なポテンシャルを示した。
しかし、この領域における現在の研究の多くは、高頻度プリエントを組み込むことの重要性を見越しながら、グローバル情報を取得するためにトランスフォーマーブロックの設計を優先している。
本研究では, 変圧器構造が低周波情報の取得に適しているが, 畳み込み処理と比較して高周波表現を構築できる能力に限界があることを, 一連の実験で明らかにした。
提案手法であるクロスリファインメント適応型特徴変調トランス (CRAFT) は, 畳み込み構造と変圧器構造の強度を統合する。
高周波情報を抽出する高周波強調残差ブロック(hferb)、グローバル情報をキャプチャするシフト長方形ウィンドウアテンションブロック(srwab)、グローバル表現を精錬するハイブリッド融合ブロック(hfb)の3つのキー成分からなる。
複数のデータセットに対する実験により、CRAFTはより少ないパラメータを使用しながら、最先端のメソッドを最大0.29dBで上回ります。
ソースコードはhttps://github.com/AVC2-UESTC/CRAFT-SR.gitで公開されている。
関連論文リスト
- Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition [10.302458835329539]
軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。
実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-14T10:36:19Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - STMR: Spiral Transformer for Hand Mesh Reconstruction [11.47314655711821]
本稿では,トランスフォーマーアーキテクチャにスパイラルサンプリングを巧みに統合し,メッシュトポロジを利用したハンドメッシュ再構成の性能向上を実現する。
FreiHANDデータセットの実験では、STMRの最先端性能と非並列推論速度が、同様のバックボーン法と比較された。
論文 参考訳(メタデータ) (2024-07-08T14:05:27Z) - Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。
これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。
本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文 参考訳(メタデータ) (2024-04-17T02:04:10Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。