論文の概要: Learnt Deep Hyperparameter selection in Adversarial Training for
compressed video enhancement with perceptual critic
- arxiv url: http://arxiv.org/abs/2302.14516v1
- Date: Tue, 28 Feb 2023 12:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 16:43:34.181653
- Title: Learnt Deep Hyperparameter selection in Adversarial Training for
compressed video enhancement with perceptual critic
- Title(参考訳): 知覚的批判を伴う圧縮映像強調のための敵訓練における深部ハイパーパラメータ選択の学習
- Authors: Darren Ramsook, Anil Kokaram
- Abstract要約: DFQM(Deep Feature Quality Metrics)は、従来のメトリクスよりも主観的知覚スコアと相関することが示されている。
本稿では,神経科学的な層行動解釈に基づいて,そのようなネットワークから知覚に関連のある層を選択する手法を提案する。
その結果,これらの特徴を批評家に導入すると,10% (FID) と15% (KID) のパフォーマンスが向上することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image based Deep Feature Quality Metrics (DFQMs) have been shown to better
correlate with subjective perceptual scores over traditional metrics. The
fundamental focus of these DFQMs is to exploit internal representations from a
large scale classification network as the metric feature space. Previously, no
attention has been given to the problem of identifying which layers are most
perceptually relevant. In this paper we present a new method for selecting
perceptually relevant layers from such a network, based on a neuroscience
interpretation of layer behaviour. The selected layers are treated as a
hyperparameter to the critic network in a W-GAN. The critic uses the output
from these layers in the preliminary stages to extract perceptual information.
A video enhancement network is trained adversarially with this critic. Our
results show that the introduction of these selected features into the critic
yields up to 10% (FID) and 15% (KID) performance increase against other critic
networks that do not exploit the idea of optimised feature selection.
- Abstract(参考訳): 画像に基づくDeep Feature Quality Metrics(DFQM)は、従来のメトリクスよりも主観的知覚スコアと相関することが示されている。
これらのDFQMの基本的な焦点は、メートル法の特徴空間として大規模分類ネットワークから内部表現を利用することである。
以前は、どの層が最も知覚的に関連があるかを特定するという問題には何の注意も払われていなかった。
本稿では,階層行動の神経科学的解釈に基づいて,そのようなネットワークから知覚関連レイヤを選択する新しい手法を提案する。
選択された層は、W−GANの批評家ネットワークに対するハイパーパラメータとして扱われる。
批評家は、これらの層からの出力を予備段階として知覚情報を抽出する。
ビデオエンハンスメントネットワークは、この批評家と敵対的に訓練される。
その結果,これらの特徴を批評家に導入すると,最適化された特徴選択のアイデアを生かしていない他の批評家ネットワークに対して10%(FID)と15%(KID)のパフォーマンスが向上することがわかった。
関連論文リスト
- TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - No-Reference Point Cloud Quality Assessment via Domain Adaptation [31.280188860021248]
本稿では,3次元点雲に対する画像伝達点雲品質評価(IT-PCQA)の新たな非参照品質評価指標を提案する。
特に,自然画像をソース領域として,点雲を対象領域として扱うとともに,教師なしの敵領域適応により点雲の品質を推定する。
実験結果から,提案手法は従来のノン参照指標よりも高い性能が得られることが示された。
論文 参考訳(メタデータ) (2021-12-06T08:20:40Z) - Weakly-supervised fire segmentation by visualizing intermediate CNN
layers [82.75113406937194]
画像やビデオにおける火の局所化は、火災事故に対処するための自律システムにとって重要なステップである。
我々は,ネットワークのトレーニングに画像ラベルのみを使用する,画像中の火の弱い制御セグメント化について検討する。
CNNの中間層における特徴量の平均値は,2値セグメンテーション問題である火災セグメンテーションの場合,従来のクラスアクティベーションマッピング(CAM)法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-16T11:56:28Z) - (ASNA) An Attention-based Siamese-Difference Neural Network with
Surrogate Ranking Loss function for Perceptual Image Quality Assessment [0.0]
画像復元と拡張のための逆訓練フレームワークを利用する深層畳み込みニューラルネットワーク(dcnn)は、処理された画像のシャープさを大幅に改善した。
イメージの知覚品質とよく一致したパフォーマンスを反映した定量的指標を開発する必要がある。
本稿では,従来のSiameseネットワークの拡張アーキテクチャを用いた畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-05-06T09:04:21Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Improving Action Quality Assessment using ResNets and Weighted
Aggregation [0.0]
アクション品質評価(AQA)は、そのアクションのビデオに基づいて人間の行動を自動的に判断し、パフォーマンススコアを割り当てることを目指しています。
AQAの既存の文献の多くは、RGBのビデオをC3Dネットワークを使って高レベルな表現に変換する。
C3Dの比較的浅い性質のため、抽出された特徴の質はより深い畳み込みニューラルネットワークを用いて抽出できるものよりも低い。
論文 参考訳(メタデータ) (2021-02-21T08:36:22Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。