論文の概要: CSformer: Bridging Convolution and Transformer for Compressive Sensing
- arxiv url: http://arxiv.org/abs/2112.15299v1
- Date: Fri, 31 Dec 2021 04:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 15:51:23.028835
- Title: CSformer: Bridging Convolution and Transformer for Compressive Sensing
- Title(参考訳): CSformer:圧縮センシングのためのブリッジングコンボリューションとトランスフォーマー
- Authors: Dongjie Ye, Zhangkai Ni, Hanli Wang, Jian Zhang, Shiqi Wang, Sam Kwong
- Abstract要約: 本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
- 参考スコア(独自算出の注目度): 65.22377493627687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution neural networks (CNNs) have succeeded in compressive image
sensing. However, due to the inductive bias of locality and weight sharing, the
convolution operations demonstrate the intrinsic limitations in modeling the
long-range dependency. Transformer, designed initially as a
sequence-to-sequence model, excels at capturing global contexts due to the
self-attention-based architectures even though it may be equipped with limited
localization abilities. This paper proposes CSformer, a hybrid framework that
integrates the advantages of leveraging both detailed spatial information from
CNN and the global context provided by transformer for enhanced representation
learning. The proposed approach is an end-to-end compressive image sensing
method, composed of adaptive sampling and recovery. In the sampling module,
images are measured block-by-block by the learned sampling matrix. In the
reconstruction stage, the measurement is projected into dual stems. One is the
CNN stem for modeling the neighborhood relationships by convolution, and the
other is the transformer stem for adopting global self-attention mechanism. The
dual branches structure is concurrent, and the local features and global
representations are fused under different resolutions to maximize the
complementary of features. Furthermore, we explore a progressive strategy and
window-based transformer block to reduce the parameter and computational
complexity. The experimental results demonstrate the effectiveness of the
dedicated transformer-based architecture for compressive sensing, which
achieves superior performance compared to state-of-the-art methods on different
datasets.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は圧縮イメージセンシングに成功している。
しかしながら、局所性と重みの共有の帰納的バイアスのため、畳み込み操作は長距離依存性のモデリングにおいて固有の制限を示す。
当初シーケンシャル・ツー・シーケンス・モデルとして設計されたtransformerは、限定的なローカライズ機能を備えていても、セルフ・アテンション・ベースのアーキテクチャによるグローバル・コンテクストのキャプチャに優れている。
本稿では,cnnからの詳細な空間情報と,トランスフォーマによって提供されるグローバルコンテキストを併用して表現学習の強化を実現するハイブリッドフレームワークcsformerを提案する。
提案手法は適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
サンプリングモジュールでは、画像は学習したサンプリング行列によってブロック単位で測定される。
再建段階では、測定は二重茎に投影される。
1つは畳み込みによって近隣関係をモデル化するcnnのstemと、もう1つはグローバル・セルフ・アテンション・メカニズムを採用するトランスフォーマーのstemである。
双対分岐構造は並列であり、局所的な特徴と大域的な表現は異なる解像度で融合され、特徴の補完を最大化する。
さらに,プログレッシブストラテジーとウィンドウベースのトランスフォーマーブロックを探索し,パラメータと計算複雑性を低減した。
実験結果は, 圧縮センシングのための専用変圧器アーキテクチャの有効性を実証するものである。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - SUMD: Super U-shaped Matrix Decomposition Convolutional neural network
for Image denoising [0.0]
ネットワークに行列分解モジュール(MD)を導入し,グローバルなコンテキスト機能を確立する。
U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて,MDモジュールをマルチブランチに統合する。
我々のモデル(SUMD)は、Transformerベースの手法で、同等の視覚的品質と精度が得られる。
論文 参考訳(メタデータ) (2022-04-11T04:38:34Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。