論文の概要: Transformer Compressed Sensing via Global Image Tokens
- arxiv url: http://arxiv.org/abs/2203.12861v1
- Date: Thu, 24 Mar 2022 05:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:22:40.430343
- Title: Transformer Compressed Sensing via Global Image Tokens
- Title(参考訳): トランスフォーマー圧縮型グローバルイメージトークンによるセンシング
- Authors: Marlon Bran Lorenzana, Craig Engstrom, and Shekhar S. Chandra
- Abstract要約: 低解像度入力に自然に画像を埋め込む新しい画像分解法を提案する。
我々は、よく知られたCS-MRIニューラルネットワークのCNNコンポーネントをTNNブロックに置き換え、KDによる改善を実証する。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNN) have demonstrated outstanding Compressed
Sensing (CS) performance compared to traditional, hand-crafted methods.
However, they are broadly limited in terms of generalisability, inductive bias
and difficulty to model long distance relationships. Transformer neural
networks (TNN) overcome such issues by implementing an attention mechanism
designed to capture dependencies between inputs. However, high-resolution tasks
typically require vision Transformers (ViT) to decompose an image into
patch-based tokens, limiting inputs to inherently local contexts. We propose a
novel image decomposition that naturally embeds images into low-resolution
inputs. These Kaleidoscope tokens (KD) provide a mechanism for global
attention, at the same computational cost as a patch-based approach. To
showcase this development, we replace CNN components in a well-known CS-MRI
neural network with TNN blocks and demonstrate the improvements afforded by KD.
We also propose an ensemble of image tokens, which enhance overall image
quality and reduces model size. Supplementary material is available:
https://github.com/uqmarlonbran/TCS.git}{https://github.com/uqmarlonbran/TCS.git
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnn)は、従来の手作り方式に比べて優れた圧縮センシング(cs)性能を示している。
しかし、それらは一般化可能性、帰納的バイアス、長距離関係のモデル化の困難さという観点で広く制限されている。
トランスフォーマーニューラルネットワーク(tnn)は、入力間の依存関係をキャプチャするアテンションメカニズムを実装することで、このような問題を克服する。
しかし、高解像度のタスクは通常、イメージをパッチベースのトークンに分解するために視覚変換器(ViT)を必要とする。
低解像度入力に自然に画像を埋め込む新しい画像分解法を提案する。
これらのカレイドスコープトークン(KD)は、パッチベースのアプローチと同じ計算コストで、グローバルな注目のメカニズムを提供する。
この発展を示すために、よく知られたCS-MRIニューラルネットワークのCNNコンポーネントをTNNブロックで置き換え、KDがもたらす改善を実証する。
また,画像品質を向上し,モデルサイズを小さくする画像トークンのアンサンブルを提案する。
https://github.com/uqmarlonbran/tcs.git}{https://github.com/uqmarlonbran/tcs.git
関連論文リスト
- Enhancing Learned Image Compression via Cross Window-based Attention [4.673285689826945]
特徴符号化モジュールと統合したCNNベースのソリューションを提案する。
クロススケールウィンドウベースアテンションは、変換器のアテンション機構にインスパイアされ、受容場を効果的に拡大する。
提案手法はKodakおよびCLICデータセット上で評価し,提案手法が有効であり,最先端手法と同等であることを示す。
論文 参考訳(メタデータ) (2024-10-28T15:44:35Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Joint Global and Local Hierarchical Priors for Learned Image Compression [30.44884350320053]
近年,従来の手書き画像コーデックと比較して,学習画像圧縮法の性能が向上している。
本稿では,ローカル情報とグローバル情報の両方をコンテンツに依存した方法で活用する,情報変換(Information Transformer, Informer)と呼ばれる新しいエントロピーモデルを提案する。
実験により,Informer はKodak および Tecnick データセットの最先端手法よりも速度歪み性能が向上することを示した。
論文 参考訳(メタデータ) (2021-12-08T06:17:37Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。