論文の概要: A Deep Drift-Diffusion Model for Image Aesthetic Score Distribution
Prediction
- arxiv url: http://arxiv.org/abs/2010.07661v1
- Date: Thu, 15 Oct 2020 11:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 04:20:04.934618
- Title: A Deep Drift-Diffusion Model for Image Aesthetic Score Distribution
Prediction
- Title(参考訳): 画像美的スコア分布予測のための深部ドリフト拡散モデル
- Authors: Xin Jin, Xiqiao Li, Heng Huang, Xiaodong Li, and Xinghui Zhou
- Abstract要約: 画像から美的スコアの分布を予測するために,心理学者から着想を得たディープドリフト拡散モデルを提案する。
DDDモデルは、評価結果の伝統的なモデリングではなく、美的知覚の心理的プロセスを記述することができる。
私たちの新しいDDDモデルはシンプルだが効率的であり、美的スコア分布予測における最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 68.76594695163386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of aesthetic quality assessment is complicated due to its
subjectivity. In recent years, the target representation of image aesthetic
quality has changed from a one-dimensional binary classification label or
numerical score to a multi-dimensional score distribution. According to current
methods, the ground truth score distributions are straightforwardly regressed.
However, the subjectivity of aesthetics is not taken into account, that is to
say, the psychological processes of human beings are not taken into
consideration, which limits the performance of the task. In this paper, we
propose a Deep Drift-Diffusion (DDD) model inspired by psychologists to predict
aesthetic score distribution from images. The DDD model can describe the
psychological process of aesthetic perception instead of traditional modeling
of the results of assessment. We use deep convolution neural networks to
regress the parameters of the drift-diffusion model. The experimental results
in large scale aesthetic image datasets reveal that our novel DDD model is
simple but efficient, which outperforms the state-of-the-art methods in
aesthetic score distribution prediction. Besides, different psychological
processes can also be predicted by our model.
- Abstract(参考訳): 美的品質評価のタスクは主観性のため複雑である。
近年,画像の美的品質の目標表現は,1次元のバイナリ分類ラベルや数値スコアから多次元のスコア分布へと変化している。
現在の方法により、基底的真理スコア分布は直接回帰する。
しかし、美学の主観性は考慮されておらず、つまり、人間の心理的プロセスは考慮されていないため、タスクの実行が制限される。
本稿では,画像から美的スコア分布を予測するために,心理学者からインスパイアされた深いドリフト拡散(ddd)モデルを提案する。
DDDモデルは、評価結果の伝統的なモデリングではなく、美的知覚の心理的プロセスを記述することができる。
深層畳み込みニューラルネットワークを用いてドリフト拡散モデルのパラメータを回帰させる。
大規模な美的画像データセットによる実験結果から,新しいDDDモデルはシンプルだが効率的であり,審美的スコア分布予測における最先端の手法よりも優れていることがわかった。
さらに、モデルによって異なる心理的プロセスを予測することもできる。
関連論文リスト
- Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Distinguishing representational geometries with controversial stimuli:
Bayesian experimental design and its application to face dissimilarity
judgments [0.5735035463793008]
3次元顔モデルグラフィックスを逆転するように訓練されたニューラルネットワークは、識別、分類、あるいはオートエンコーディングで訓練されたのと同じアーキテクチャよりも、よりヒューマンアライメントであることを示す。
以上の結果から,3次元顔モデルグラフィックスを逆転するように訓練されたニューラルネットワークは,識別,分類,自動エンコーディングを訓練したのと同じアーキテクチャよりも,より人間らしくなっていることが示唆された。
論文 参考訳(メタデータ) (2022-11-28T04:17:35Z) - Improving Fairness in Image Classification via Sketching [14.154930352612926]
ディープニューラルネットワーク(DNN)は、異なるサブ人口からトレーニングデータが収集された場合、不公平な予測を行う傾向がある。
我々はこの現象に対処するためにスケッチを使うことを提案する。
本手法は,一般的なシーンデータセットと医療シーンデータセットの両方に関する広範な実験を通じて評価する。
論文 参考訳(メタデータ) (2022-10-31T22:26:32Z) - Modeling, Quantifying, and Predicting Subjectivity of Image Aesthetics [21.46956783120668]
本稿では,主観的美的嗜好をモデル化し,その主観的論理に基づいて定量化できる統一確率的枠組みを提案する。
この枠組みでは、評価分布をベータ分布としてモデル化し、確実に喜ぶ可能性、確実に不幸であり、不確実である可能性を得ることができる。
本稿では,画像美学の予測のための深層ニューラルネットワークの学習手法を提案する。
論文 参考訳(メタデータ) (2022-08-20T12:16:45Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Exploring to establish an appropriate model for mage aesthetic
assessment via CNN-based RSRL: An empirical study [3.8073142980733]
CNNの最終層FCノードの絡み合い度を反映したD尺度を導入する。
複数の写真スコア予測モデルから最適なモデルを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T03:20:00Z) - Human-Understandable Decision Making for Visual Recognition [30.30163407674527]
モデル学習プロセスに人間の知覚の優先順位を組み込むことにより,深層ニューラルネットワークを訓練する新たなフレームワークを提案する。
提案モデルの有効性を2つの古典的視覚認識タスクで評価する。
論文 参考訳(メタデータ) (2021-03-05T02:07:33Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。