論文の概要: Considering user agreement in learning to predict the aesthetic quality
- arxiv url: http://arxiv.org/abs/2110.06956v1
- Date: Wed, 13 Oct 2021 18:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 11:38:17.432173
- Title: Considering user agreement in learning to predict the aesthetic quality
- Title(参考訳): 審美的品質を予測する学習におけるユーザ合意の検討
- Authors: Suiyi Ling, Andreas Pastor, Junle Wang, Patrick Le Callet
- Abstract要約: 本稿では、平均意見スコアと標準偏差の両方をエンドツーエンドに予測するために、再適応型マルチタスクアテンションネットワークを提案する。
このような損失により、モデルは観察者の意見の多様性に関連するコンテンツの不確実性を学ぶことが奨励される。
提案したマルチタスク美的モデルが,2種類の審美的データセットに対して最先端のパフォーマンスを実現することを示す実験が実施されている。
- 参考スコア(独自算出の注目度): 35.255447771350404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to robustly rank the aesthetic quality of given images has been a
long-standing ill-posed topic. Such challenge stems mainly from the diverse
subjective opinions of different observers about the varied types of content.
There is a growing interest in estimating the user agreement by considering the
standard deviation of the scores, instead of only predicting the mean aesthetic
opinion score. Nevertheless, when comparing a pair of contents, few studies
consider how confident are we regarding the difference in the aesthetic scores.
In this paper, we thus propose (1) a re-adapted multi-task attention network to
predict both the mean opinion score and the standard deviation in an end-to-end
manner; (2) a brand-new confidence interval ranking loss that encourages the
model to focus on image-pairs that are less certain about the difference of
their aesthetic scores. With such loss, the model is encouraged to learn the
uncertainty of the content that is relevant to the diversity of observers'
opinions, i.e., user disagreement. Extensive experiments have demonstrated that
the proposed multi-task aesthetic model achieves state-of-the-art performance
on two different types of aesthetic datasets, i.e., AVA and TMGA.
- Abstract(参考訳): 与えられた画像の美的品質をしっかりとランク付けする方法は、長い間不適切なトピックであった。
このような課題は主に、様々なタイプのコンテンツについての様々な観察者の多様な主観的意見に由来する。
平均的な美的意見スコアを予測するのではなく,スコアの標準偏差を考慮してユーザ合意を推定することへの関心が高まっている。
それにもかかわらず、一対のコンテンツを比較する場合、美的スコアの違いにどの程度自信があるかを考える研究はほとんどない。
そこで本稿では,(1)平均評価スコアと標準偏差の両方をエンドツーエンドで予測するための再適応型マルチタスク・アテンションネットワークを提案する。
このような損失により、モデルは、観察者の意見の多様性、すなわちユーザーの不一致に関連するコンテンツの不確実性を学ぶことが奨励される。
広汎な実験により、提案したマルチタスク美学モデルは、AVAとTMGAの2つの異なるタイプの美学データセット上で最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - iLab at SemEval-2023 Task 11 Le-Wi-Di: Modelling Disagreement or
Modelling Perspectives? [17.310208612897814]
我々は、SEMEVAL Task 11上での性能を評価するためにマルチタスクアーキテクチャを適用した。
その結果、異なるアノテータの意見を含むデータセットではマルチタスクのアプローチが不十分であることが判明した。
偏見主義的アプローチが望ましいのは、意思決定者が少数派の見解を増幅できるからだ、と我々は主張する。
論文 参考訳(メタデータ) (2023-05-10T11:55:17Z) - Towards Reliable Assessments of Demographic Disparities in Multi-Label
Image Classifiers [11.973749734226852]
マルチラベル画像分類と,特に対象分類タスクについて検討する。
測定のための設計選択とトレードオフは、以前のコンピュータビジョン文学で議論されたよりもニュアンスが高い。
実装の詳細にだけ似ているが、評価の結論に大きな影響を及ぼすいくつかの設計選択を特定します。
論文 参考訳(メタデータ) (2023-02-16T20:34:54Z) - Understanding Aesthetics with Language: A Photo Critique Dataset for
Aesthetic Assessment [6.201485014848172]
74K画像と220Kコメントを含むCritique Photo Redditデータセット(RPCD)を提案する。
我々は、美的判断の指標として批判の感情の極性を利用する。
論文 参考訳(メタデータ) (2022-06-17T08:16:20Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Joint Forecasting of Panoptic Segmentations with Difference Attention [72.03470153917189]
シーン内の全てのオブジェクトを共同で予測する新しいパノプティックセグメンテーション予測モデルについて検討する。
提案したモデルをCityscapesとAIODriveデータセット上で評価する。
論文 参考訳(メタデータ) (2022-04-14T17:59:32Z) - Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。
画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T12:26:27Z) - Difficulty-aware Glaucoma Classification with Multi-Rater Consensus
Modeling [34.28252351672568]
我々は,緑内障分類タスクの深層学習モデルの性能向上のために,生のマルチレータグレーディングを利用する。
入力画像に対して最も感度が高く,最も具体的で,かつ,バランスの取れた融合結果を予測するために,マルチブランチモデル構造を提案する。
最終トラストラベルのみをトレーニングしたモデルと比較して,マルチレータコンセンサス情報を用いた提案手法は優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-29T14:04:34Z) - Weakly-Supervised Disentanglement Without Compromises [53.55580957483103]
インテリジェントエージェントは、環境の変化を観察することで、有用な表現を学べるべきである。
変動の要因の少なくとも1つを共有する非I.d.画像のペアとしてそのような観測をモデル化する。
我々は,どの因子が変化したかのみを知るだけで,非絡み合った表現を学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。