論文の概要: LMLT: Low-to-high Multi-Level Vision Transformer for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2409.03516v1
- Date: Thu, 5 Sep 2024 13:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:28:22.306067
- Title: LMLT: Low-to-high Multi-Level Vision Transformer for Image Super-Resolution
- Title(参考訳): LMLT:画像超解像用低レベル多層視覚変換器
- Authors: Jeongsoo Kim, Jongho Nang, Junsuk Choe,
- Abstract要約: 画像超解像のための視覚変換器(ViT)を用いた最近の手法は印象的な性能を示した。
Window Self-Attention (WSA) を用いた最近のViTモデルは、ウィンドウ外の処理領域において課題に直面している。
本稿では,各頭部に異なる特徴量を持つ低レベルマルチレベルトランス (LMLT) を提案する。
- 参考スコア(独自算出の注目度): 9.05771474043499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Vision Transformer (ViT)-based methods for Image Super-Resolution have demonstrated impressive performance. However, they suffer from significant complexity, resulting in high inference times and memory usage. Additionally, ViT models using Window Self-Attention (WSA) face challenges in processing regions outside their windows. To address these issues, we propose the Low-to-high Multi-Level Transformer (LMLT), which employs attention with varying feature sizes for each head. LMLT divides image features along the channel dimension, gradually reduces spatial size for lower heads, and applies self-attention to each head. This approach effectively captures both local and global information. By integrating the results from lower heads into higher heads, LMLT overcomes the window boundary issues in self-attention. Extensive experiments show that our model significantly reduces inference time and GPU memory usage while maintaining or even surpassing the performance of state-of-the-art ViT-based Image Super-Resolution methods. Our codes are availiable at https://github.com/jwgdmkj/LMLT.
- Abstract(参考訳): 画像超解像のための視覚変換器(ViT)を用いた最近の手法は印象的な性能を示した。
しかし、それらはかなりの複雑さに悩まされ、高い推論時間とメモリ使用量をもたらす。
さらに、Window Self-Attention (WSA) を用いたViTモデルは、ウィンドウ外の領域を処理する上で困難に直面している。
これらの問題に対処するために,各頭部の様々な特徴量に着目した低レベルマルチレベルトランス (LMLT) を提案する。
LMLTは、チャネル次元に沿って画像の特徴を分割し、下位頭部の空間サイズを徐々に小さくし、各頭部に自己注意を与える。
このアプローチは、ローカル情報とグローバル情報の両方を効果的にキャプチャする。
低位頭部から高位頭部へ結果を統合することにより、LMLTは自己注意における窓の境界問題を克服する。
大規模な実験により,我々のモデルは最新のViTベースの画像超解法の性能を維持しながら,推論時間とGPUメモリ使用量を著しく削減することが示された。
私たちのコードはhttps://github.com/jwgdmkj/LMLT.comで利用可能です。
関連論文リスト
- LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer [109.61952368100756]
本稿では,階層型ウィンドウトランスを中心とした高度なMLLMであるLLaVA-UHD v2を紹介する。
視覚言語プロジェクターとして、ハイウィン変換器は2つの主モジュールから構成される。
大規模な実験により、LLaVA-UHD v2は、一般的なベンチマーク上で既存のMLLMよりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-12-18T14:07:46Z) - Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid [87.09900996643516]
本稿では,高分解能画像処理における意味的不連続性を軽減するための補完画像ピラミッド(CIP)を提案する。
また、冗長な視覚トークンを圧縮することにより、計算オーバーヘッドを増大させるスケール圧縮機構(SCM)を導入する。
我々の実験は、CIPが様々なアーキテクチャで継続的に性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-08-04T13:55:58Z) - Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets [11.95214938154427]
Vision Transformer (ViT)は、イメージをパッチに分割することで、グローバルな情報をキャプチャする。
ViTは、画像やビデオデータセットのトレーニング中に誘導バイアスを欠く。
本稿では,ViTモデルのショートカットとして,軽量なDepth-Wise Convolutionモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-28T04:23:40Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer [25.673986942179123]
高度な画像改ざん技術はマルチメディアの信頼性に挑戦している。
優れたIMLモデルとは何か?答はアーティファクトをキャプチャする方法にある。
We build a ViT paradigm IML-ViT, which has a high- resolution capacity, multi-scale feature extract capabilities, and manipulate edge supervision。
我々は、この単純だが効果的なViTパラダイムであるIML-ViTを、IMLの新しいベンチマークとなる大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-27T13:49:27Z) - Reciprocal Attention Mixing Transformer for Lightweight Image Restoration [6.3159191692241095]
本稿では,RAMiT(Reciprocal Attention Mixing Transformer)という軽量画像復元ネットワークを提案する。
二次元(空間とチャネル)の自己アテンションを、異なる数のマルチヘッドと並行して使用する。
超高分解能、カラーデノイング、グレースケールデノナイジング、低照度向上、デラリニングなど、複数の軽量IRタスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-19T06:55:04Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。