論文の概要: Foundation Models Boost Low-Level Perceptual Similarity Metrics
- arxiv url: http://arxiv.org/abs/2409.07650v2
- Date: Sun, 12 Jan 2025 05:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:25:05.632462
- Title: Foundation Models Boost Low-Level Perceptual Similarity Metrics
- Title(参考訳): ファウンデーションモデルが低レベルの知覚的類似度指標を向上
- Authors: Abhijay Ghildyal, Nabajeet Barman, Saman Zadtootaghaj,
- Abstract要約: ディープラーニングアプローチを用いたフルリファレンス画像品質評価(FR-IQA)では、歪んだ画像と参照画像との知覚的類似度スコアは、通常、事前訓練されたCNNまたはより最近ではトランスフォーマーネットワークから抽出された特徴間の距離測定として計算される。
この研究は、低レベルの知覚的類似度指標の設計において、これまでほとんど研究されていないこれらの基礎モデルの中間的特徴を活用する可能性を探るものである。
- 参考スコア(独自算出の注目度): 6.226609932118124
- License:
- Abstract: For full-reference image quality assessment (FR-IQA) using deep-learning approaches, the perceptual similarity score between a distorted image and a reference image is typically computed as a distance measure between features extracted from a pretrained CNN or more recently, a Transformer network. Often, these intermediate features require further fine-tuning or processing with additional neural network layers to align the final similarity scores with human judgments. So far, most IQA models based on foundation models have primarily relied on the final layer or the embedding for the quality score estimation. In contrast, this work explores the potential of utilizing the intermediate features of these foundation models, which have largely been unexplored so far in the design of low-level perceptual similarity metrics. We demonstrate that the intermediate features are comparatively more effective. Moreover, without requiring any training, these metrics can outperform both traditional and state-of-the-art learned metrics by utilizing distance measures between the features.
- Abstract(参考訳): ディープラーニングアプローチを用いたフルリファレンス画像品質評価(FR-IQA)では、歪んだ画像と参照画像との知覚的類似度スコアは、通常、事前訓練されたCNNまたはより最近ではトランスフォーマーネットワークから抽出された特徴間の距離測定として計算される。
これらの中間機能は、最終的な類似度スコアを人間の判断に合わせるために、追加のニューラルネットワークレイヤによるさらなる微調整や処理を必要とすることが多い。
今のところ、ほとんどのIQAモデルは、主に最終層や、品質スコア推定のための埋め込みに依存している。
対照的に、この研究は、低レベルの知覚的類似度指標の設計において、これまでほとんど研究されていないこれらの基礎モデルの中間的特徴を利用する可能性を探究している。
中間機能の方が比較的効果的であることを示す。
さらに、トレーニングを必要とせずに、これらのメトリクスは、特徴間の距離測定を利用することで、従来のものと最先端の学習メトリクスの両方を上回ります。
関連論文リスト
- On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
本稿では,内部表現の類似性を高めるための協調学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z) - A combined full-reference image quality assessment approach based on
convolutional activation maps [0.0]
フルリファレンス画像品質評価(FR-IQA)の目標は、人間の観察者が認識する画像の品質を、そのプリスタントな基準値を用いて予測することである。
本研究では,畳み込みアクティベーションマップから特徴ベクトルをコンパイルすることにより,歪み画像の知覚的品質を予測する手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T10:00:29Z) - Eigen-CAM: Class Activation Map using Principal Components [1.2691047660244335]
この論文は、解釈可能で堅牢で透明なモデルに対する需要の増加に対応するために、従来の考え方に基づいている。
提案したEigen-CAMは、畳み込み層から学習した特徴/表現の基本的なコンポーネントを計算し、視覚化する。
論文 参考訳(メタデータ) (2020-08-01T17:14:13Z) - Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints [80.60538408386016]
連続するフレームから相対的なカメラのポーズを推定することは、視覚計測の基本的な問題である。
本稿では,検出,特徴抽出,マッチング,外乱除去のための学習可能なモジュールで構成されるエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-29T21:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。