論文の概要: VTAMIQ: Transformers for Attention Modulated Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2110.01655v1
- Date: Mon, 4 Oct 2021 18:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:04:21.275728
- Title: VTAMIQ: Transformers for Attention Modulated Image Quality Assessment
- Title(参考訳): VTAMIQ: 注意変調画像品質評価用変換器
- Authors: Andrei Chubarau, James Clark
- Abstract要約: 本稿では,VTAMIQ(VTAMIQ)を用いた新しい全参照IQA手法を提案する。
本手法は既存のIQAデータセット上での競合や最先端の性能を実現する。
VTAMIQは、分類タスクとIQAタスクの両方に対して大規模な事前訓練を行うことで、目に見えない画像と歪みの集合によく一般化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following the major successes of self-attention and Transformers for image
analysis, we investigate the use of such attention mechanisms in the context of
Image Quality Assessment (IQA) and propose a novel full-reference IQA method,
Vision Transformer for Attention Modulated Image Quality (VTAMIQ). Our method
achieves competitive or state-of-the-art performance on the existing IQA
datasets and significantly outperforms previous metrics in cross-database
evaluations. Most patch-wise IQA methods treat each patch independently; this
partially discards global information and limits the ability to model
long-distance interactions. We avoid this problem altogether by employing a
transformer to encode a sequence of patches as a single global representation,
which by design considers interdependencies between patches. We rely on various
attention mechanisms -- first with self-attention within the Transformer, and
second with channel attention within our difference modulation network --
specifically to reveal and enhance the more salient features throughout our
architecture. With large-scale pre-training for both classification and IQA
tasks, VTAMIQ generalizes well to unseen sets of images and distortions,
further demonstrating the strength of transformer-based networks for vision
modelling.
- Abstract(参考訳): 画像解析における自己注意とトランスフォーマーの大きな成功に続いて、画像品質評価(iqa)の文脈における注意機構の利用を調査し、注意変調画像品質のための視覚トランスフォーマ(vtamiq)を提案する。
提案手法は既存のIQAデータセット上での競合性や最先端性能を実現し,データベース間評価において従来の指標よりも大幅に優れていた。
ほとんどのパッチワイドIQAメソッドは各パッチを個別に扱うが、これは部分的にグローバル情報を破棄し、長距離通信をモデル化する能力を制限する。
我々は、パッチのシーケンスを単一のグローバル表現としてエンコードするトランスフォーマーを用いて、パッチ間の相互依存性を設計することで、この問題を完全に回避する。
まずはトランスフォーマー内での自己注意、次に差分変調ネットワーク内でのチャネルの注意、特にアーキテクチャ全体のより健全な機能を明らかにするために、様々な注意機構に依存しています。
分類とiqaタスクの両方の大規模事前トレーニングにより、vtamiqは目に見えない画像と歪みのセットにうまく一般化し、さらに視覚モデリングのためのトランスフォーマーベースのネットワークの強みを実証する。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Blind Image Quality Assessment via Transformer Predicted Error Map and
Perceptual Quality Token [19.67014524146261]
近年,非参照画像品質評価(NR-IQA)が注目されている。
予測された客観的誤差マップと知覚的品質トークンを用いたTransformerベースのNR-IQAモデルを提案する。
提案手法は, 実画像データベースと合成画像データベースの両方において, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-05-16T11:17:54Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Visual Mechanisms Inspired Efficient Transformers for Image and Video
Quality Assessment [5.584060970507507]
人間の視覚系における知覚機構は、品質知覚の生成において重要な役割を担っている。
本稿では,効率的なウィンドウ変換アーキテクチャを用いた非参照視覚品質評価のための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-28T07:55:11Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - No-Reference Image Quality Assessment via Transformers, Relative
Ranking, and Self-Consistency [38.88541492121366]
No-Reference Image Quality Assessment (NR-IQA) の目的は、主観的評価に応じて知覚的画質を推定することである。
本稿では、変圧器における畳み込みニューラルネットワーク(CNN)と自己保持機構の利点を生かしたハイブリッドアプローチを利用して、NR-IQAタスクに対処する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-08-16T02:07:08Z) - MUSIQ: Multi-scale Image Quality Transformer [22.908901641767688]
現在のIQA法は畳み込みニューラルネットワーク(CNN)に基づいている
マルチスケール画像品質変換器(MUSIQ)を設計し,サイズやアスペクト比の異なるネイティブ解像度画像を処理する。
提案手法は,マルチスケールの画像表現により,様々な粒度で画像品質を捉えることができる。
論文 参考訳(メタデータ) (2021-08-12T23:36:22Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。