論文の概要: CAMixerSR: Only Details Need More "Attention"
- arxiv url: http://arxiv.org/abs/2402.19289v2
- Date: Fri, 15 Mar 2024 07:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 22:14:10.926284
- Title: CAMixerSR: Only Details Need More "Attention"
- Title(参考訳): CAMixerSR:詳細は「注意」のみ
- Authors: Yan Wang, Yi Liu, Shijie Zhao, Junlin Li, Li Zhang,
- Abstract要約: 本稿では,コンボリューションを単純なコンテキストに割り当てるコンテンツ対応ミキサー (CAMixer) と,スパーステクスチャに変形可能なウィンドウアテンションを提案する。
具体的には、CAMixerは学習可能な予測器を使用して複数のブートストラップを生成する。ウィンドウのワープのオフセット、ウィンドウの分類のためのマスク、動的プロパティとの畳み込みのための畳み込みアテンションなどである。
単純にCAMixerを積み重ねることで、大画面SR、軽量SR、全方位SRにおいて優れた性能を実現するCAMixerSRを得る。
- 参考スコア(独自算出の注目度): 12.461164043015781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To satisfy the rapidly increasing demands on the large image (2K-8K) super-resolution (SR), prevailing methods follow two independent tracks: 1) accelerate existing networks by content-aware routing, and 2) design better super-resolution networks via token mixer refining. Despite directness, they encounter unavoidable defects (e.g., inflexible route or non-discriminative processing) limiting further improvements of quality-complexity trade-off. To erase the drawbacks, we integrate these schemes by proposing a content-aware mixer (CAMixer), which assigns convolution for simple contexts and additional deformable window-attention for sparse textures. Specifically, the CAMixer uses a learnable predictor to generate multiple bootstraps, including offsets for windows warping, a mask for classifying windows, and convolutional attentions for endowing convolution with the dynamic property, which modulates attention to include more useful textures self-adaptively and improves the representation capability of convolution. We further introduce a global classification loss to improve the accuracy of predictors. By simply stacking CAMixers, we obtain CAMixerSR which achieves superior performance on large-image SR, lightweight SR, and omnidirectional-image SR.
- Abstract(参考訳): 大きな画像(2K-8K)の超解像(SR)に対する要求が急速に高まっていることを満たすため、一般的な手法は2つの独立した軌道を踏襲する。
1)コンテンツ認識ルーティングにより既存のネットワークを加速し、
2) トークンミキサー精製による高解像度ネットワークの設計
直接性にもかかわらず、それらは避けられない欠陥(例えば、柔軟性のない経路や非差別的な処理)に遭遇し、品質と複雑さのトレードオフのさらなる改善を制限します。
欠点を解消するために,コンテント・アウェア・ミキサー (CAMixer) を提案し,コンボリューションを単純なコンテキストに割り当てるとともに,余分なテクスチャに変形可能なウィンドウアテンションを追加することで,これらのスキームを統合する。
具体的には、CAMixerは学習可能な予測器を使用して複数のブートストラップを生成し、ウィンドウのワープのオフセット、ウィンドウの分類のためのマスク、動的特性との畳み込みを達成するための畳み込み注意、より有用なテクスチャを自己適応的に含み、畳み込みの表現能力を向上させる。
さらに、予測器の精度を向上させるために、グローバルな分類損失を導入する。
単純にCAMixerを積み重ねることで、大画面SR、軽量SR、全方位SRにおいて優れた性能を実現するCAMixerSRを得る。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Convolution and Attention Mixer for Synthetic Aperture Radar Image
Change Detection [41.38587746899477]
合成開口レーダ(SAR)画像変化検出は重要な課題であり,リモートセンシングコミュニティで注目されている。
既存のSAR変化検出法は主に畳み込みニューラルネットワーク(CNN)に基づいている
グローバルアテンションを取り入れたコンボリューション・アテンション・ミキサー(CAMixer)を提案する。
論文 参考訳(メタデータ) (2023-09-21T12:28:23Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - CiaoSR: Continuous Implicit Attention-in-Attention Network for
Arbitrary-Scale Image Super-Resolution [158.2282163651066]
本稿ではCiaoSRと呼ばれる連続的な暗黙の注意-注意ネットワークを提案する。
我々は、周辺地域の特徴のアンサンブル重みを学習するために、暗黙の注意ネットワークを明示的に設計する。
我々は、この暗黙の注意ネットワークにスケールアウェアの注意を埋め込んで、追加の非ローカル情報を活用する。
論文 参考訳(メタデータ) (2022-12-08T15:57:46Z) - Efficient Image Super-Resolution using Vast-Receptive-Field Attention [49.87316814164699]
注意機構は、高度な超解像(SR)ネットワークの設計において重要な役割を果たす。
本研究では,アテンション機構の改善により,効率的なSRネットワークを設計する。
VAst-receptive-field Pixel attention networkであるVapSRを提案する。
論文 参考訳(メタデータ) (2022-10-12T07:01:00Z) - ShuffleMixer: An Efficient ConvNet for Image Super-Resolution [88.86376017828773]
本稿では、大きな畳み込みとチャネル分割シャッフル操作を探索する軽量画像超解像のためのShuffleMixerを提案する。
具体的には,チャネル分割とシャッフルを基本成分とする2つのプロジェクション層を効率よく混合する。
実験結果から,ShuffleMixerはモデルパラメータやFLOPの手法に比べて約6倍小さいことがわかった。
論文 参考訳(メタデータ) (2022-05-30T15:26:52Z) - MPRNet: Multi-Path Residual Network for Lightweight Image Super
Resolution [2.3576437999036473]
軽量SRにおけるSOTA性能を向上させる軽量超解像ネットワークを提案する。
提案アーキテクチャには新たなアテンション機構であるTwo-Fold Attention Moduleが含まれており,モデルの表現能力を最大化することができる。
論文 参考訳(メタデータ) (2020-11-09T17:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。