論文の概要: Considering user agreement in learning to predict the aesthetic quality
- arxiv url: http://arxiv.org/abs/2110.06956v1
- Date: Wed, 13 Oct 2021 18:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 11:38:17.432173
- Title: Considering user agreement in learning to predict the aesthetic quality
- Title(参考訳): 審美的品質を予測する学習におけるユーザ合意の検討
- Authors: Suiyi Ling, Andreas Pastor, Junle Wang, Patrick Le Callet
- Abstract要約: 本稿では、平均意見スコアと標準偏差の両方をエンドツーエンドに予測するために、再適応型マルチタスクアテンションネットワークを提案する。
このような損失により、モデルは観察者の意見の多様性に関連するコンテンツの不確実性を学ぶことが奨励される。
提案したマルチタスク美的モデルが,2種類の審美的データセットに対して最先端のパフォーマンスを実現することを示す実験が実施されている。
- 参考スコア(独自算出の注目度): 35.255447771350404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to robustly rank the aesthetic quality of given images has been a
long-standing ill-posed topic. Such challenge stems mainly from the diverse
subjective opinions of different observers about the varied types of content.
There is a growing interest in estimating the user agreement by considering the
standard deviation of the scores, instead of only predicting the mean aesthetic
opinion score. Nevertheless, when comparing a pair of contents, few studies
consider how confident are we regarding the difference in the aesthetic scores.
In this paper, we thus propose (1) a re-adapted multi-task attention network to
predict both the mean opinion score and the standard deviation in an end-to-end
manner; (2) a brand-new confidence interval ranking loss that encourages the
model to focus on image-pairs that are less certain about the difference of
their aesthetic scores. With such loss, the model is encouraged to learn the
uncertainty of the content that is relevant to the diversity of observers'
opinions, i.e., user disagreement. Extensive experiments have demonstrated that
the proposed multi-task aesthetic model achieves state-of-the-art performance
on two different types of aesthetic datasets, i.e., AVA and TMGA.
- Abstract(参考訳): 与えられた画像の美的品質をしっかりとランク付けする方法は、長い間不適切なトピックであった。
このような課題は主に、様々なタイプのコンテンツについての様々な観察者の多様な主観的意見に由来する。
平均的な美的意見スコアを予測するのではなく,スコアの標準偏差を考慮してユーザ合意を推定することへの関心が高まっている。
それにもかかわらず、一対のコンテンツを比較する場合、美的スコアの違いにどの程度自信があるかを考える研究はほとんどない。
そこで本稿では,(1)平均評価スコアと標準偏差の両方をエンドツーエンドで予測するための再適応型マルチタスク・アテンションネットワークを提案する。
このような損失により、モデルは、観察者の意見の多様性、すなわちユーザーの不一致に関連するコンテンツの不確実性を学ぶことが奨励される。
広汎な実験により、提案したマルチタスク美学モデルは、AVAとTMGAの2つの異なるタイプの美学データセット上で最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Multi-Perspective Stance Detection [2.8073184910275293]
マルチパースペクティブアプローチは、単一ラベルを使用するベースラインよりも優れた分類性能が得られる。
これは、より包括的な視点を意識したAIモデルを設計することが、責任と倫理的なAIを実装するための重要な第一歩であるだけでなく、従来のアプローチよりも優れた結果を達成することも必要である。
論文 参考訳(メタデータ) (2024-11-13T16:30:41Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Towards Reliable Assessments of Demographic Disparities in Multi-Label
Image Classifiers [11.973749734226852]
マルチラベル画像分類と,特に対象分類タスクについて検討する。
測定のための設計選択とトレードオフは、以前のコンピュータビジョン文学で議論されたよりもニュアンスが高い。
実装の詳細にだけ似ているが、評価の結論に大きな影響を及ぼすいくつかの設計選択を特定します。
論文 参考訳(メタデータ) (2023-02-16T20:34:54Z) - Understanding Aesthetics with Language: A Photo Critique Dataset for
Aesthetic Assessment [6.201485014848172]
74K画像と220Kコメントを含むCritique Photo Redditデータセット(RPCD)を提案する。
我々は、美的判断の指標として批判の感情の極性を利用する。
論文 参考訳(メタデータ) (2022-06-17T08:16:20Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。
画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T12:26:27Z) - Difficulty-aware Glaucoma Classification with Multi-Rater Consensus
Modeling [34.28252351672568]
我々は,緑内障分類タスクの深層学習モデルの性能向上のために,生のマルチレータグレーディングを利用する。
入力画像に対して最も感度が高く,最も具体的で,かつ,バランスの取れた融合結果を予測するために,マルチブランチモデル構造を提案する。
最終トラストラベルのみをトレーニングしたモデルと比較して,マルチレータコンセンサス情報を用いた提案手法は優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-29T14:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。