論文の概要: Local Distortion Aware Efficient Transformer Adaptation for Image
Quality Assessment
- arxiv url: http://arxiv.org/abs/2308.12001v1
- Date: Wed, 23 Aug 2023 08:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:07:44.482216
- Title: Local Distortion Aware Efficient Transformer Adaptation for Image
Quality Assessment
- Title(参考訳): 画像品質評価のための効率的な変圧器適応を考慮した局所歪み認識
- Authors: Kangmin Xu, Liang Liao, Jing Xiao, Chaofeng Chen, Haoning Wu, Qiong
Yan, Weisi Lin
- Abstract要約: 局所歪み特性を適切に注入することにより、IQAタスクにおいて、より大きな事前訓練および固定された基礎モデルがより優れた性能を発揮することを示す。
具体的には、局所歪み構造と視覚変換器(ViT)の誘導バイアスの欠如に対して、別の事前学習畳み込みニューラルネットワーク(CNN)を用いる。
本研究では, 予め訓練したCNNから局所歪み特徴を得るための局所歪み抽出器と, 局所歪み特徴をViTに注入する局所歪み注入器を提案する。
- 参考スコア(独自算出の注目度): 62.074473976962835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Quality Assessment (IQA) constitutes a fundamental task within the
field of computer vision, yet it remains an unresolved challenge, owing to the
intricate distortion conditions, diverse image contents, and limited
availability of data. Recently, the community has witnessed the emergence of
numerous large-scale pretrained foundation models, which greatly benefit from
dramatically increased data and parameter capacities. However, it remains an
open problem whether the scaling law in high-level tasks is also applicable to
IQA task which is closely related to low-level clues. In this paper, we
demonstrate that with proper injection of local distortion features, a larger
pretrained and fixed foundation model performs better in IQA tasks.
Specifically, for the lack of local distortion structure and inductive bias of
vision transformer (ViT), alongside the large-scale pretrained ViT, we use
another pretrained convolution neural network (CNN), which is well known for
capturing the local structure, to extract multi-scale image features. Further,
we propose a local distortion extractor to obtain local distortion features
from the pretrained CNN and a local distortion injector to inject the local
distortion features into ViT. By only training the extractor and injector, our
method can benefit from the rich knowledge in the powerful foundation models
and achieve state-of-the-art performance on popular IQA datasets, indicating
that IQA is not only a low-level problem but also benefits from stronger
high-level features drawn from large-scale pretrained models.
- Abstract(参考訳): 画像品質評価(IQA)はコンピュータビジョンの分野における基本的な課題であるが、複雑な歪み条件、多様な画像の内容、データの可用性の制限により未解決の課題である。
近年、コミュニティは大規模に事前訓練された基礎モデルの出現を目の当たりにしており、データとパラメータの容量が劇的に増大している。
しかし、ハイレベルなタスクにおけるスケーリング法則が低レベルの手がかりと密接に関連しているIQAタスクにも適用可能であるかどうかについては、未解決の問題である。
本稿では,局所歪み特性を適切に注入することにより,IQAタスクにおいてより大きな事前学習および固定基盤モデルがより優れた性能を発揮することを示す。
具体的には,視覚トランスフォーマ(vit)の局所的歪み構造とインダクティブバイアスの欠如に対して,事前学習されたvitと並行して,局所構造を捉えることでよく知られた別の事前学習畳み込みニューラルネットワーク(cnn)を用いて,多次元画像特徴を抽出する。
さらに,事前学習したCNNから局所歪み特徴を得る局所歪み抽出器と,局所歪み特徴をViTに注入する局所歪みインジェクタを提案する。
抽出器とインジェクタのみを訓練することにより,提案手法は強力な基礎モデルの豊富な知識を生かし,IQAデータセットの最先端性能を達成し,IQAが低レベル問題であるだけでなく,大規模事前学習モデルから引き出されたより強力な高レベル特徴の恩恵を受けることを示す。
関連論文リスト
- Assessing UHD Image Quality from Aesthetics, Distortions, and Saliency [51.36674160287799]
我々は3つの視点からUHD画像の品質を評価するためにマルチブランチディープニューラルネットワーク(DNN)を設計する。
UHD画像から低解像度画像から美的特徴を抽出する。
UHD画像から抽出したミニパッチからなる断片画像を用いて, 技術的歪みを測定する。
UHD画像の塩分含有量を検知し、収穫し、塩分領域から品質認識特徴を抽出する。
論文 参考訳(メタデータ) (2024-09-01T15:26:11Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Transformer-based No-Reference Image Quality Assessment via Supervised
Contrastive Learning [36.695247860715874]
本稿では,新しいコントラスト学習 (Contrastive Learning, SCL) と NR-IQA モデル SaTQA を提案する。
まず、SCLによる大規模合成データセット上にモデルをトレーニングし、様々な歪みタイプとレベルの画像の劣化特徴を抽出する。
画像から歪み情報を抽出するために,CNNインダクティブバイアスとTransformerの長期依存性モデリング機能を組み合わせることで,マルチストリームブロック(MSB)を組み込んだバックボーンネットワークを提案する。
7つの標準IQAデータセットの実験結果から、SaTQAは合成データセットと認証データセットの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-12-12T06:01:41Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Vision Transformer Equipped with Neural Resizer on Facial Expression
Recognition Task [1.3048920509133808]
本稿では,データ駆動方式で情報とダウンスケーリングを補償することでTransformerをサポートする新しいトレーニングフレームワークであるNeural Resizerを提案する。
F-PDLS損失関数を用いたニューラルリサイザ実験により,Transformerの変種での性能が向上した。
論文 参考訳(メタデータ) (2022-04-05T13:04:04Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - No-Reference Image Quality Assessment via Transformers, Relative
Ranking, and Self-Consistency [38.88541492121366]
No-Reference Image Quality Assessment (NR-IQA) の目的は、主観的評価に応じて知覚的画質を推定することである。
本稿では、変圧器における畳み込みニューラルネットワーク(CNN)と自己保持機構の利点を生かしたハイブリッドアプローチを利用して、NR-IQAタスクに対処する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-08-16T02:07:08Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - MetaIQA: Deep Meta-learning for No-Reference Image Quality Assessment [73.55944459902041]
本稿では,深層メタラーニングに基づく非参照IQA尺度を提案する。
まず、様々な歪みに対してNR-IQAタスクを収集する。
次にメタラーニングを用いて、多彩な歪みによって共有される事前知識を学習する。
大規模な実験により、提案された計量は最先端の技術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-04-11T23:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。