Fugu-MT 論文翻訳(概要): TOPIQ: A Top-down Approach from Semantics to Distortions for Image Quality Assessment

論文の概要: TOPIQ: A Top-down Approach from Semantics to Distortions for Image Quality Assessment

arxiv url: http://arxiv.org/abs/2308.03060v1
Date: Sun, 6 Aug 2023 09:08:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 16:49:28.639046
Title: TOPIQ: A Top-down Approach from Semantics to Distortions for Image Quality Assessment
Title（参考訳）: TOPIQ:画像品質評価のためのセマンティックスから歪みへのトップダウンアプローチ
Authors: Chaofeng Chen, Jiadi Mo, Jingwen Hou, Haoning Wu, Liang Liao, Wenxiu Sun, Qiong Yan, Weisi Lin
Abstract要約: 画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
参考スコア（独自算出の注目度）: 53.72721476803585
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Image Quality Assessment (IQA) is a fundamental task in computer vision that has witnessed remarkable progress with deep neural networks. Inspired by the characteristics of the human visual system, existing methods typically use a combination of global and local representations (\ie, multi-scale features) to achieve superior performance. However, most of them adopt simple linear fusion of multi-scale features, and neglect their possibly complex relationship and interaction. In contrast, humans typically first form a global impression to locate important regions and then focus on local details in those regions. We therefore propose a top-down approach that uses high-level semantics to guide the IQA network to focus on semantically important local distortion regions, named as \emph{TOPIQ}. Our approach to IQA involves the design of a heuristic coarse-to-fine network (CFANet) that leverages multi-scale features and progressively propagates multi-level semantic information to low-level representations in a top-down manner. A key component of our approach is the proposed cross-scale attention mechanism, which calculates attention maps for lower level features guided by higher level features. This mechanism emphasizes active semantic regions for low-level distortions, thereby improving performance. CFANet can be used for both Full-Reference (FR) and No-Reference (NR) IQA. We use ResNet50 as its backbone and demonstrate that CFANet achieves better or competitive performance on most public FR and NR benchmarks compared with state-of-the-art methods based on vision transformers, while being much more efficient (with only ${\sim}13\%$ FLOPS of the current best FR method). Codes are released at \url{https://github.com/chaofengc/IQA-PyTorch}.
Abstract（参考訳）: 画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目撃したコンピュータビジョンの基本課題である。人間の視覚システムの特徴に触発されて、既存の手法は通常、優れた性能を達成するために、グローバル表現とローカル表現の組み合わせ(\ie、multi-scale feature)を使用する。しかし、それらの多くは単純な線形な多スケール特徴融合を採用しており、それらの複雑な関係や相互作用を無視している。対照的に、人間が最初にグローバルな印象を形成して重要な地域を特定し、それらの地域の詳細に集中する。そこで我々は,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。 IQA に対する我々のアプローチは,マルチスケールな特徴を生かしたヒューリスティックな粗いネットワーク (CFANet) の設計と,マルチレベルなセマンティック情報をトップダウンで低レベルな表現に段階的に伝播させることである。提案手法の重要な要素は,高レベル特徴に導かれる低レベル特徴に対するアテンションマップを計算するクロススケールアテンション機構である。このメカニズムは低レベルの歪みに対するアクティブセマンティクス領域を強調し、パフォーマンスを向上させる。 CFANetはFull-Reference (FR) とNo-Reference (NR) IQAの両方で使用できる。我々はResNet50をバックボーンとして使用し、CFANetはビジョントランスフォーマーに基づく最先端の手法と比較して、ほとんどのパブリックFRおよびNRベンチマークにおいて、より効率的で(現在の最高のFRメソッドでは、${\sim}13\%$ FLOPSでのみ)、より良い、あるいは競争的なパフォーマンスを実現していることを示す。コードは \url{https://github.com/chaofengc/IQA-PyTorch} でリリースされる。

関連論文リスト

Life-IQA: Boosting Blind Image Quality Assessment through GCN-enhanced Layer Interaction and MoE-based Feature Decoupling [53.74410422225995]
ブラインド画像品質評価(BIQA)は視覚経験の評価と最適化において重要な役割を担っている。既存のBIQAアプローチのほとんどは、バックボーンネットワークから抽出された浅く深い特徴を融合させ、品質予測に不平等な貢献を見落としている。本稿では,BIQA の浅層・深層特性の寄与について検討し,GCN によるアンダーライン層アンダーライン相互作用と MoE ベースのアンダーラインアンダーラインデカップリング(textbf(Life-IQA))による効果的な品質特徴デコードフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-24T11:59:55Z)
Asynchronous Feedback Network for Perceptual Point Cloud Quality Assessment [18.65004981045047]
非同期フィードバック品質予測ネットワーク(AFQ-Net)を提案する。 AFQ-Netは人間の視覚知覚機構に動機付けられ、グローバルな特徴や局所的な特徴を扱うために二重ブランチ構造を採用している。 3つのデータセットに関する総合的な実験を行い、最先端のアプローチよりも優れた性能を実現する。
論文参考訳（メタデータ） (2024-07-13T08:52:44Z)
Context-Semantic Quality Awareness Network for Fine-Grained Visual Categorization [30.92656780805478]
細粒度視覚分類のための弱教師付き文脈意味品質認識ネットワーク(CSQA-Net)を提案する。リッチな部分記述子とグローバルセマンティクスの空間的関係をモデル化するため,我々は新しい多部・多スケールクロスアテンション(MPMSCA)モジュールを開発した。また、バックボーンネットワークの異なるレベルからの階層的セマンティクスを段階的に監視し、強化する汎用的マルチレベルセマンティクス評価モジュール(MLSQE)を提案する。
論文参考訳（メタデータ） (2024-03-15T13:40:44Z)
Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文参考訳（メタデータ） (2022-10-05T08:32:54Z)
Feedback Pyramid Attention Networks for Single Image Super-Resolution [37.58180059860872]
特徴の相互依存を完全に活用するためのフィードバックピラミッドアテンションネットワーク(FPAN)を提案する。本手法では,第1段階の各レイヤの出力を次の状態の対応するレイヤの入力として使用し,以前の低レベルフィルタを再更新する。本研究では,グローバルな文脈情報を異なるスケールでモデル化するピラミッド非局所構造を導入し,ネットワークの識別表現を改善する。
論文参考訳（メタデータ） (2021-06-13T11:32:53Z)
Learning Deep Interleaved Networks with Asymmetric Co-Attention for Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文参考訳（メタデータ） (2020-10-29T15:32:00Z)
Multi-Level Graph Convolutional Network with Automatic Graph Learning for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。 MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文参考訳（メタデータ） (2020-09-19T09:26:20Z)
Global Context-Aware Progressive Aggregation Network for Salient Object Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-03-02T04:26:10Z)
Weakly Supervised Attention Pyramid Convolutional Neural Network for Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。 AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文参考訳（メタデータ） (2020-02-09T12:33:23Z)
Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文参考訳（メタデータ） (2020-01-09T07:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。