論文の概要: Image Aesthetics Prediction Using Multiple Patches Preserving the
Original Aspect Ratio of Contents
- arxiv url: http://arxiv.org/abs/2007.02268v1
- Date: Sun, 5 Jul 2020 08:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 08:29:06.980787
- Title: Image Aesthetics Prediction Using Multiple Patches Preserving the
Original Aspect Ratio of Contents
- Title(参考訳): コンテンツのオリジナルアスペクト比を保存する多重パッチを用いた画像美学予測
- Authors: Lijie Wang, Xueting Wang and Toshihiko Yamasaki
- Abstract要約: ソーシャルネットワークサービスは、印象的な画像の選択、編集、生成に対する需要が高まっている。
MPA-Netと呼ばれるマルチパッチ手法を提案し、画像中のコンテンツの本来のアスペクト比を維持することにより、画像美学のスコアを予測する。
MPA-Netは、他の人間の主観性予測のような美学スコア予測以外の応用には大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 45.328411111273304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The spread of social networking services has created an increasing demand for
selecting, editing, and generating impressive images. This trend increases the
importance of evaluating image aesthetics as a complementary function of
automatic image processing. We propose a multi-patch method, named MPA-Net
(Multi-Patch Aggregation Network), to predict image aesthetics scores by
maintaining the original aspect ratios of contents in the images. Through an
experiment involving the large-scale AVA dataset, which contains 250,000
images, we show that the effectiveness of the equal-interval multi-patch
selection approach for aesthetics score prediction is significant compared to
the single-patch prediction and random patch selection approaches. For this
dataset, MPA-Net outperforms the neural image assessment algorithm, which was
regarded as a baseline method. In particular, MPA-Net yields a 0.073 (11.5%)
higher linear correlation coefficient (LCC) of aesthetics scores and a 0.088
(14.4%) higher Spearman's rank correlation coefficient (SRCC). MPA-Net also
reduces the mean square error (MSE) by 0.0115 (4.18%) and achieves results for
the LCC and SRCC that are comparable to those of the state-of-the-art
continuous aesthetics score prediction methods. Most notably, MPA-Net yields a
significant lower MSE especially for images with aspect ratios far from 1.0,
indicating that MPA-Net is useful for a wide range of image aspect ratios.
MPA-Net uses only images and does not require external information during the
training nor prediction stages. Therefore, MPA-Net has great potential for
applications aside from aesthetics score prediction such as other human
subjectivity prediction.
- Abstract(参考訳): ソーシャルネットワークサービスの普及により、印象的な画像の選択、編集、生成に対する需要が高まっている。
この傾向は、自動画像処理の補完機能として、画像美学を評価することの重要性を高める。
画像中のコンテンツの元のアスペクト比を維持して画像美観スコアを予測するマルチパッチ方式mpa-netを提案する。
25万枚の画像を含む大規模AVAデータセットを用いた実験により, 同一間隔のマルチパッチ選択手法の有効性が, シングルパッチ予測やランダムパッチ選択手法と比較して有意であることがわかった。
このデータセットでは、MPA-Netはベースライン手法とみなされたニューラルイメージアセスメントアルゴリズムよりも優れている。
特に、MPA-Netは美学のスコアの0.073 (11.5%)高い線形相関係数 (LCC) と、スペアマンのランク相関係数 (SRCC) の0.088 (14.4%) を得る。
MPA-Net は平均平方誤差 (MSE) を 0.0115 (4.18%) 削減し、最先端の連続美学スコア予測手法に匹敵する LCC と SRCC の結果を得る。
最も顕著なのは、MPA-Netは、特にアスペクト比が1.0から遠くない画像に対して、MSEがかなり低いことであり、MPA-Netは幅広い画像アスペクト比に有用であることを示している。
MPA-Netは画像のみを使用し、トレーニングや予測の段階で外部情報を必要としない。
したがって、MPA-Netは、他の人間の主観性予測のような美学スコア予測以外の応用には大きな可能性を秘めている。
関連論文リスト
- Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - PIQI: Perceptual Image Quality Index based on Ensemble of Gaussian
Process Regression [2.9412539021452715]
デジタル画像の品質を評価するためにPIQI(Perceptual Image Quality Index)を提案する。
PIQIの性能は6つのベンチマークデータベースでチェックされ、12の最先端の手法と比較される。
論文 参考訳(メタデータ) (2023-05-16T06:44:17Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - DFM: A Performance Baseline for Deep Feature Matching [10.014010310188821]
提案手法では,事前学習したVGGアーキテクチャを特徴抽出器として使用し,マッチングを改善するために追加の訓練を必要としない。
提案アルゴリズムは,Hpatchesデータセット上で,平均マッチング精度(MMA)で0.57と0.80のスコアをそれぞれ1ピクセル,2ピクセルの閾値で達成する。
論文 参考訳(メタデータ) (2021-06-14T22:55:06Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - A combined full-reference image quality assessment approach based on
convolutional activation maps [0.0]
フルリファレンス画像品質評価(FR-IQA)の目標は、人間の観察者が認識する画像の品質を、そのプリスタントな基準値を用いて予測することである。
本研究では,畳み込みアクティベーションマップから特徴ベクトルをコンパイルすることにより,歪み画像の知覚的品質を予測する手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T10:00:29Z) - SUR-FeatNet: Predicting the Satisfied User Ratio Curvefor Image
Compression with Deep Feature Learning [15.2348952809434]
本研究では,SUR曲線の予測に初となる深層学習手法を提案する。
最適なパラメトリックモデルを選択するために、最大推定法とアンダーソン・ダーリング試験を適用する方法を示す。
私たちのディープラーニングアプローチは、シアムの畳み込みニューラルネットワーク、トランスファーラーニング、ディープフィーチャーラーニングに依存しています。
論文 参考訳(メタデータ) (2020-01-07T12:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。