論文の概要: Cascaded Local Implicit Transformer for Arbitrary-Scale Super-Resolution
- arxiv url: http://arxiv.org/abs/2303.16513v1
- Date: Wed, 29 Mar 2023 07:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 15:36:25.100675
- Title: Cascaded Local Implicit Transformer for Arbitrary-Scale Super-Resolution
- Title(参考訳): 任意スケール超解像用カスケード局部インシシシット変圧器
- Authors: Hao-Wei Chen and Yu-Syuan Xu and Min-Fong Hong and Yi-Min Tsai and
Hsien-Kai Kuo and Chun-Yi Lee
- Abstract要約: 暗黙の神経表現は、任意の解像度で画像を表現できる有望な能力を示している。
本稿では、アテンション機構と周波数符号化技術を局所暗黙画像関数に統合したローカルインプリシット変換器(LIT)を提案する。
- 参考スコア(独自算出の注目度): 15.631101125268172
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Implicit neural representation has recently shown a promising ability in
representing images with arbitrary resolutions. In this paper, we present a
Local Implicit Transformer (LIT), which integrates the attention mechanism and
frequency encoding technique into a local implicit image function. We design a
cross-scale local attention block to effectively aggregate local features. To
further improve representative power, we propose a Cascaded LIT (CLIT) that
exploits multi-scale features, along with a cumulative training strategy that
gradually increases the upsampling scales during training. We have conducted
extensive experiments to validate the effectiveness of these components and
analyze various training strategies. The qualitative and quantitative results
demonstrate that LIT and CLIT achieve favorable results and outperform the
prior works in arbitrary super-resolution tasks.
- Abstract(参考訳): 暗黙の神経表現は、任意の解像度で画像を表現できる有望な能力を示している。
本稿では、注意機構と周波数符号化技術を局所暗黙画像関数に統合したローカルインプリシット変換器(LIT)を提案する。
我々は,局所的特徴を効果的に集約する,大規模ローカルアテンションブロックを設計する。
代表的パワーをさらに向上するために,マルチスケール機能を利用するカスケードLIT(CLIT)と,トレーニング中のアップサンプリングスケールを徐々に増加させる累積的トレーニング戦略を提案する。
我々は,これらの構成要素の有効性を検証し,様々なトレーニング戦略を解析するための広範囲な実験を行った。
定性的かつ定量的な結果は、LITとCLITが好意的な結果を達成し、任意の超解像タスクにおいて先行研究より優れていることを示す。
関連論文リスト
- Multi-Scale Implicit Transformer with Re-parameterize for
Arbitrary-Scale Super-Resolution [2.4865475189445405]
マルチスケールインプリシットトランス(MSIT)
MSITは、MSNO(Multi-scale Neural Operator)とMSSA(Multi-scale Self-Attention)から構成される。
論文 参考訳(メタデータ) (2024-03-11T09:23:20Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [63.54342601757723]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Local Distortion Aware Efficient Transformer Adaptation for Image
Quality Assessment [62.074473976962835]
局所歪み特性を適切に注入することにより、IQAタスクにおいて、より大きな事前訓練および固定された基礎モデルがより優れた性能を発揮することを示す。
具体的には、局所歪み構造と視覚変換器(ViT)の誘導バイアスの欠如に対して、別の事前学習畳み込みニューラルネットワーク(CNN)を用いる。
本研究では, 予め訓練したCNNから局所歪み特徴を得るための局所歪み抽出器と, 局所歪み特徴をViTに注入する局所歪み注入器を提案する。
論文 参考訳(メタデータ) (2023-08-23T08:41:21Z) - Distributed Neural Representation for Reactive in situ Visualization [23.80657290203846]
Inlicit Neural representations (INR) は、大規模ボリュームデータを圧縮するための強力なツールとして登場した。
分散ニューラル表現を開発し,それをその場での可視化に最適化する。
我々の技術はプロセス間のデータ交換を排除し、最先端の圧縮速度、品質、比率を達成する。
論文 参考訳(メタデータ) (2023-03-28T03:55:47Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - DALG: Deep Attentive Local and Global Modeling for Image Retrieval [26.773211032906854]
本稿では,Transformerの成功に動機づけられた頑健な表現学習のための,完全な注意に基づくフレームワークを提案する。
グローバルな特徴抽出にTransformerを適用することに加えて、ウィンドウベースのマルチヘッドアテンションと空間アテンションからなるローカルブランチを考案する。
DALG(Deep Attentive Local and Global Modeling framework)では、大規模な実験結果により、効率が大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2022-07-01T09:32:15Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Deep Iterative Residual Convolutional Network for Single Image
Super-Resolution [31.934084942626257]
我々は、ISRResCNet(Deep Iterative Super-Resolution Residual Convolutional Network)を提案する。
残差学習アプローチを用いて、深層ネットワークを反復的に訓練することにより、強力な画像正規化と大規模最適化手法を活用する。
トレーニング可能なパラメータがいくつかある本手法は,最先端の手法と比較して,異なるスケーリング要因に対する結果を改善する。
論文 参考訳(メタデータ) (2020-09-07T12:54:14Z) - Attentive CutMix: An Enhanced Data Augmentation Approach for Deep
Learning Based Image Classification [58.20132466198622]
そこで我々は,CutMixに基づく自然拡張拡張戦略であるAttentive CutMixを提案する。
各トレーニングイテレーションにおいて、特徴抽出器から中間注意マップに基づいて最も記述性の高い領域を選択する。
提案手法は単純かつ有効であり,実装が容易であり,ベースラインを大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-03-29T15:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。