Fugu-MT 論文翻訳(概要): LIPT: Latency-aware Image Processing Transformer

論文の概要: LIPT: Latency-aware Image Processing Transformer

arxiv url: http://arxiv.org/abs/2404.06075v1
Date: Tue, 9 Apr 2024 07:25:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 15:39:15.373463
Title: LIPT: Latency-aware Image Processing Transformer
Title（参考訳）: LIPT:遅延対応画像処理変換器
Authors: Junbo Qiao, Wei Li, Haizhen Xie, Hanting Chen, Yunshuai Zhou, Zhijun Tu, Jie Hu, Shaohui Lin,
Abstract要約: LIPTと呼ばれる遅延対応画像処理変換器を提案する。我々は、メモリ集約演算子の代わりに自己注意と畳み込みを組み合わせた低レイテンシ比LIPTブロックを考案し、実用的な高速化を実現する。
参考スコア（独自算出の注目度）: 17.802838753201385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer is leading a trend in the field of image processing. Despite the great success that existing lightweight image processing transformers have achieved, they are tailored to FLOPs or parameters reduction, rather than practical inference acceleration. In this paper, we present a latency-aware image processing transformer, termed LIPT. We devise the low-latency proportion LIPT block that substitutes memory-intensive operators with the combination of self-attention and convolutions to achieve practical speedup. Specifically, we propose a novel non-volatile sparse masking self-attention (NVSM-SA) that utilizes a pre-computing sparse mask to capture contextual information from a larger window with no extra computation overload. Besides, a high-frequency reparameterization module (HRM) is proposed to make LIPT block reparameterization friendly, which improves the model's detail reconstruction capability. Extensive experiments on multiple image processing tasks (e.g., image super-resolution (SR), JPEG artifact reduction, and image denoising) demonstrate the superiority of LIPT on both latency and PSNR. LIPT achieves real-time GPU inference with state-of-the-art performance on multiple image SR benchmarks.
Abstract（参考訳）: Transformerは画像処理の分野でトレンドをリードしている。既存の軽量画像処理変換器が達成した大きな成功にもかかわらず、実際の推論アクセラレーションよりもFLOPやパラメータ削減に最適化されている。本稿では、LIPTと呼ばれる遅延対応画像処理変換器を提案する。我々は、メモリ集約演算子の代わりに自己注意と畳み込みを組み合わせた低レイテンシ比LIPTブロックを考案し、実用的な高速化を実現する。具体的には,非揮発性スパースマスキング・セルフアテンション (NVSM-SA) を提案する。さらに、LIPTブロック再パラメータ化を快適にするために、高周波数再パラメータ化モジュール(HRM)を提案する。複数の画像処理タスク(例えば、画像スーパーレゾリューション(SR)、JPEGアーティファクトリダクション、画像デノイング)に対する大規模な実験は、遅延とPSNRの両方においてLIPTの優位性を示す。 LIPTは、複数の画像SRベンチマークで最先端のパフォーマンスでリアルタイムGPU推論を実現する。

関連論文リスト

TransiT: Transient Transformer for Non-line-of-sight Videography [28.571430723113117]
高速スキャンによるリアルタイムNLOS回復を実現するために,TransiTと呼ばれる新しいトランスフォーマーアーキテクチャを提案する。 TransiTは入力トランジェントの時間次元を直接圧縮して特徴を抽出し、計算コストを削減し、高いフレームレート要求を満たす。実際の実験では、TransiTは1点当たり0.4msの露光時間で測定された16倍16$の粗いトランジェントからNLOSビデオの6.4倍64$の解像度で毎秒10フレームの解像度で再構成する。
論文参考訳（メタデータ） (2025-03-14T11:56:37Z)
PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文参考訳（メタデータ） (2024-11-26T04:49:42Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文参考訳（メタデータ） (2024-03-30T08:05:00Z)
A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE [0.8403582577557918]
Transformerは画像認識タスクに採用され、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。本稿では,ResNetの代わりにNeural ODEをバックボーンとして使用する軽量ハイブリッドモデルを提案する。提案モデルは,エッジコンピューティングのための最小サイズのFPGAデバイス上に展開される。
論文参考訳（メタデータ） (2024-01-05T09:32:39Z)
HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文参考訳（メタデータ） (2023-09-11T05:17:55Z)
ITSRN++: Stronger and Better Implicit Transformer Network for Continuous Screen Content Image Super-Resolution [32.441761727608856]
提案手法は,SCI SR(x3 SRでは0.74dBのSwinIR性能)の最先端性能を実現し,自然画像SRにも有効である。大規模なSCI2Kデータセットを構築し,SCI SRの研究を容易にする。
論文参考訳（メタデータ） (2022-10-17T07:47:34Z)
Hybrid Pixel-Unshuffled Network for Lightweight Image Super-Resolution [64.54162195322246]
畳み込みニューラルネットワーク(CNN)は画像超解像(SR)において大きな成功を収めたほとんどのディープCNNベースのSRモデルは、高い性能を得るために大量の計算を処理している。 SRタスクに効率的かつ効果的なダウンサンプリングモジュールを導入することで,HPUN(Hybrid Pixel-Unshuffled Network)を提案する。
論文参考訳（メタデータ） (2022-03-16T20:10:41Z)
Efficient Transformer for Single Image Super-Resolution [13.234199307504602]
高速かつ高精度な画像超解像を実現するための高効率超解像変換器(ESRT)を提案する。 ESRTは、CNNベースのSRネットワークを前面に設計し、深い特徴を抽出するハイブリッドトランスフォーマーである。提案されたETは、4191MのGPUメモリのみを占有し、パフォーマンスが向上した。
論文参考訳（メタデータ） (2021-08-25T07:05:30Z)
High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network [23.981019687483506]
閉形式ラプラシアピラミッドの分解と再構成に基づく高分解能フォトリアリスティックI2ITタスクの高速化に着目する。この2つのタスクを同時に実行するために,ラプラシアンピラミッド翻訳ネットワーク(N)を提案する。我々のモデルは高解像度の特徴写像を処理し、画像の詳細を忠実に保存することで消費される重い計算の大部分を回避している。
論文参考訳（メタデータ） (2021-05-19T15:05:22Z)
Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文参考訳（メタデータ） (2021-03-19T03:55:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。