Fugu-MT 論文翻訳(概要): Feature Modulation Transformer: Cross-Refinement of Global Representation via High-Frequency Prior for Image Super-Resolution

論文の概要: Feature Modulation Transformer: Cross-Refinement of Global Representation via High-Frequency Prior for Image Super-Resolution

arxiv url: http://arxiv.org/abs/2308.05022v2
Date: Sat, 12 Aug 2023 10:38:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 18:23:27.220818
Title: Feature Modulation Transformer: Cross-Refinement of Global Representation via High-Frequency Prior for Image Super-Resolution
Title（参考訳）: 特徴変調変換器:画像超解像に先立つ高周波によるグローバル表現のクロスリファインメント
Authors: Ao Li, Le Zhang, Yun Liu, Ce Zhu
Abstract要約: クロスリファインメント適応型特徴変調トランス(CRAFT) 提案手法であるクロスリファインメント適応型特徴変調トランス (CRAFT) は, 畳み込み構造と変圧器構造の強度を統合する。複数のデータセットに対する実験により、CRAFTはより少ないパラメータを使用しながら、最先端のメソッドを最大0.29dBで上回ります。
参考スコア（独自算出の注目度）: 35.27690082697127
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based methods have exhibited remarkable potential in single image super-resolution (SISR) by effectively extracting long-range dependencies. However, most of the current research in this area has prioritized the design of transformer blocks to capture global information, while overlooking the importance of incorporating high-frequency priors, which we believe could be beneficial. In our study, we conducted a series of experiments and found that transformer structures are more adept at capturing low-frequency information, but have limited capacity in constructing high-frequency representations when compared to their convolutional counterparts. Our proposed solution, the cross-refinement adaptive feature modulation transformer (CRAFT), integrates the strengths of both convolutional and transformer structures. It comprises three key components: the high-frequency enhancement residual block (HFERB) for extracting high-frequency information, the shift rectangle window attention block (SRWAB) for capturing global information, and the hybrid fusion block (HFB) for refining the global representation. Our experiments on multiple datasets demonstrate that CRAFT outperforms state-of-the-art methods by up to 0.29dB while using fewer parameters. The source code will be made available at: https://github.com/AVC2-UESTC/CRAFT-SR.git.
Abstract（参考訳）: トランスフォーマーに基づく手法は、長距離依存関係を効果的に抽出することにより、単一画像超解像(SISR)において顕著なポテンシャルを示した。しかし、この領域における現在の研究の多くは、高頻度プリエントを組み込むことの重要性を見越しながら、グローバル情報を取得するためにトランスフォーマーブロックの設計を優先している。本研究では, 変圧器構造が低周波情報の取得に適しているが, 畳み込み処理と比較して高周波表現を構築できる能力に限界があることを, 一連の実験で明らかにした。提案手法であるクロスリファインメント適応型特徴変調トランス (CRAFT) は, 畳み込み構造と変圧器構造の強度を統合する。高周波情報を抽出する高周波強調残差ブロック(hferb)、グローバル情報をキャプチャするシフト長方形ウィンドウアテンションブロック(srwab)、グローバル表現を精錬するハイブリッド融合ブロック(hfb)の3つのキー成分からなる。複数のデータセットに対する実験により、CRAFTはより少ないパラメータを使用しながら、最先端のメソッドを最大0.29dBで上回ります。ソースコードはhttps://github.com/AVC2-UESTC/CRAFT-SR.gitで公開されている。

関連論文リスト

Transformer-Based Person Search with High-Frequency Augmentation and Multi-Wave Mixing [18.871765626140782]
人物探索のための新しい高周波増幅・マルチウェーブ混合法を提案する。 HamWは変圧器の識別的特徴抽出能力を高めるように設計されている。 HamWはCUHK-SYSUデータセットとPRWデータセットの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-29T12:08:26Z)
FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文参考訳（メタデータ） (2025-06-17T02:33:42Z)
PiT: Progressive Diffusion Transformer [50.46345527963736]
Pseudo textbfProgressive Dtextbfiffusion textbfTransformer (textbfPiT)を提案する。提案したPiT-Lは,演算量が少なく,DiT-XL/2よりも54%$uparrow$FIDの改善を実現している。
論文参考訳（メタデータ） (2025-05-19T15:02:33Z)
Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition [10.302458835329539]
軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-11-14T10:36:19Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
STMR: Spiral Transformer for Hand Mesh Reconstruction [11.47314655711821]
本稿では,トランスフォーマーアーキテクチャにスパイラルサンプリングを巧みに統合し,メッシュトポロジを利用したハンドメッシュ再構成の性能向上を実現する。 FreiHANDデータセットの実験では、STMRの最先端性能と非並列推論速度が、同様のバックボーン法と比較された。
論文参考訳（メタデータ） (2024-07-08T14:05:27Z)
Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文参考訳（メタデータ） (2024-04-17T02:04:10Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文参考訳（メタデータ） (2023-12-14T01:33:18Z)
AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文参考訳（メタデータ） (2023-07-12T11:32:02Z)
Fourier Test-time Adaptation with Multi-level Consistency for Robust Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。 FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文参考訳（メタデータ） (2023-06-05T02:29:38Z)
Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文参考訳（メタデータ） (2022-11-26T01:56:05Z)
Transformer-based Context Condensation for Boosting Feature Pyramids in Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文参考訳（メタデータ） (2022-07-14T01:45:03Z)
FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。 3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文参考訳（メタデータ） (2022-03-24T07:26:29Z)
CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2021-12-31T04:37:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。