論文の概要: TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment
- arxiv url: http://arxiv.org/abs/2308.03060v1
- Date: Sun, 6 Aug 2023 09:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:49:28.639046
- Title: TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment
- Title(参考訳): TOPIQ:画像品質評価のためのセマンティックスから歪みへのトップダウンアプローチ
- Authors: Chaofeng Chen, Jiadi Mo, Jingwen Hou, Haoning Wu, Liang Liao, Wenxiu
Sun, Qiong Yan, Weisi Lin
- Abstract要約: 画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
- 参考スコア(独自算出の注目度): 53.72721476803585
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image Quality Assessment (IQA) is a fundamental task in computer vision that
has witnessed remarkable progress with deep neural networks. Inspired by the
characteristics of the human visual system, existing methods typically use a
combination of global and local representations (\ie, multi-scale features) to
achieve superior performance. However, most of them adopt simple linear fusion
of multi-scale features, and neglect their possibly complex relationship and
interaction. In contrast, humans typically first form a global impression to
locate important regions and then focus on local details in those regions. We
therefore propose a top-down approach that uses high-level semantics to guide
the IQA network to focus on semantically important local distortion regions,
named as \emph{TOPIQ}. Our approach to IQA involves the design of a heuristic
coarse-to-fine network (CFANet) that leverages multi-scale features and
progressively propagates multi-level semantic information to low-level
representations in a top-down manner. A key component of our approach is the
proposed cross-scale attention mechanism, which calculates attention maps for
lower level features guided by higher level features. This mechanism emphasizes
active semantic regions for low-level distortions, thereby improving
performance. CFANet can be used for both Full-Reference (FR) and No-Reference
(NR) IQA. We use ResNet50 as its backbone and demonstrate that CFANet achieves
better or competitive performance on most public FR and NR benchmarks compared
with state-of-the-art methods based on vision transformers, while being much
more efficient (with only ${\sim}13\%$ FLOPS of the current best FR method).
Codes are released at \url{https://github.com/chaofengc/IQA-PyTorch}.
- Abstract(参考訳): 画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目撃したコンピュータビジョンの基本課題である。
人間の視覚システムの特徴に触発されて、既存の手法は通常、優れた性能を達成するために、グローバル表現とローカル表現の組み合わせ(\ie、multi-scale feature)を使用する。
しかし、それらの多くは単純な線形な多スケール特徴融合を採用しており、それらの複雑な関係や相互作用を無視している。
対照的に、人間が最初にグローバルな印象を形成して重要な地域を特定し、それらの地域の詳細に集中する。
そこで我々は,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
IQA に対する我々のアプローチは,マルチスケールな特徴を生かしたヒューリスティックな粗いネットワーク (CFANet) の設計と,マルチレベルなセマンティック情報をトップダウンで低レベルな表現に段階的に伝播させることである。
提案手法の重要な要素は,高レベル特徴に導かれる低レベル特徴に対するアテンションマップを計算するクロススケールアテンション機構である。
このメカニズムは低レベルの歪みに対するアクティブセマンティクス領域を強調し、パフォーマンスを向上させる。
CFANetはFull-Reference (FR) とNo-Reference (NR) IQAの両方で使用できる。
我々はResNet50をバックボーンとして使用し、CFANetはビジョントランスフォーマーに基づく最先端の手法と比較して、ほとんどのパブリックFRおよびNRベンチマークにおいて、より効率的で(現在の最高のFRメソッドでは、${\sim}13\%$ FLOPSでのみ)、より良い、あるいは競争的なパフォーマンスを実現していることを示す。
コードは \url{https://github.com/chaofengc/IQA-PyTorch} でリリースされる。
関連論文リスト
- UNIQA: A Unified Framework for Both Full-Reference and No-Reference
Image Quality Assessment [53.895598734070695]
完全参照(FR)と非参照(NR)のIQAのための統一ネットワークを提案する。
入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層自己認識(HSA)モジュールを提案する。
HSA と CSCA を採用することにより,提案ネットワークは FR と NR IQA の両方を効果的に実行することができる。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - Feedback Pyramid Attention Networks for Single Image Super-Resolution [37.58180059860872]
特徴の相互依存を完全に活用するためのフィードバックピラミッドアテンションネットワーク(FPAN)を提案する。
本手法では,第1段階の各レイヤの出力を次の状態の対応するレイヤの入力として使用し,以前の低レベルフィルタを再更新する。
本研究では,グローバルな文脈情報を異なるスケールでモデル化するピラミッド非局所構造を導入し,ネットワークの識別表現を改善する。
論文 参考訳(メタデータ) (2021-06-13T11:32:53Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Hierarchical Bi-Directional Feature Perception Network for Person
Re-Identification [12.259747100939078]
過去の人物再同定(Re-ID)モデルは、画像の最も識別性の高い領域に焦点を当てることを目的としている。
本稿では,階層型双方向特徴知覚ネットワーク (HBFP-Net) という新しいモデルを提案する。
Market-1501, CUHK03, DukeMTMC-ReIDデータセットなどの主要な評価実験により, 提案手法が最近のSOTA Re-IDモデルより優れていることが示された。
論文 参考訳(メタデータ) (2020-08-08T12:33:32Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。