論文の概要: Ensemble Network for Ranking Images Based on Visual Appeal
- arxiv url: http://arxiv.org/abs/2006.03898v1
- Date: Sat, 6 Jun 2020 15:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 22:06:12.931530
- Title: Ensemble Network for Ranking Images Based on Visual Appeal
- Title(参考訳): 視覚的アピールに基づくランク付け画像のアンサンブルネットワーク
- Authors: Sachin Singh, Victor Sanchez and Tanaya Guha
- Abstract要約: 短時間で同じイベントで撮影された画像(特にグループ写真)のランク付けを行うための計算フレームワークを提案する。
ランキングは、画像の全体的な魅力に対する人間の認識と一致することが期待されている。
- 参考スコア(独自算出の注目度): 36.42537020137936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a computational framework for ranking images (group photos in
particular) taken at the same event within a short time span. The ranking is
expected to correspond with human perception of overall appeal of the images.
We hypothesize and provide evidence through subjective analysis that the
factors that appeal to humans are its emotional content, aesthetics and image
quality. We propose a network which is an ensemble of three information
channels, each predicting a score corresponding to one of the three visual
appeal factors. For group emotion estimation, we propose a convolutional neural
network (CNN) based architecture for predicting group emotion from images. This
new architecture enforces the network to put emphasis on the important regions
in the images, and achieves comparable results to the state-of-the-art. Next,
we develop a network for the image ranking task that combines group emotion,
aesthetics and image quality scores. Owing to the unavailability of suitable
databases, we created a new database of manually annotated group photos taken
during various social events. We present experimental results on this database
and other benchmark databases whenever available. Overall, our experiments show
that the proposed framework can reliably predict the overall appeal of images
with results closely corresponding to human ranking.
- Abstract(参考訳): 短時間で同じイベントで撮影された画像(特にグループ写真)のランク付けを行うための計算フレームワークを提案する。
ランキングは、画像の全体的な魅力に対する人間の認識に対応することが期待されている。
主観的分析によって、人間に訴える要因は感情的内容、美学、画質である、と仮定し、提示する。
本稿では、3つの情報チャンネルのアンサンブルであるネットワークを提案し、それぞれが3つの視覚的魅力要因のうちの1つに対応するスコアを予測する。
グループ感情推定のために、画像からグループ感情を予測するための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
この新しいアーキテクチャは、画像の重要な領域に重点を置くネットワークを強制し、最先端技術に匹敵する結果を得る。
次に、グループ感情、美学、画像品質スコアを組み合わせた画像ランキングタスクのためのネットワークを開発する。
適切なデータベースが利用できないため、様々なソーシャルイベント中に手動でアノテートされたグループ写真の新しいデータベースを作成しました。
我々は、このデータベースおよび他のベンチマークデータベースに対して、いつでも利用可能な実験結果を示す。
実験の結果,提案フレームワークは画像の全体的な魅力を人間のランクと密接に一致して確実に予測できることがわかった。
関連論文リスト
- AID-AppEAL: Automatic Image Dataset and Algorithm for Content Appeal Enhancement and Assessment Labeling [11.996211235559866]
Image Content Appeal Assessment (ICAA) は、画像のコンテンツが視聴者に対して生成する肯定的な関心のレベルを定量化する新しいメトリクスである。
ICAAは、画像の芸術的品質を判断する伝統的な画像美学評価(IAA)とは異なる。
論文 参考訳(メタデータ) (2024-07-08T01:40:32Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Semiotics Networks Representing Perceptual Inference [0.0]
本稿では,物体の知覚を追跡・シミュレートする計算モデルを提案する。
我々のモデルは人間に限らず、「内部」表現から「外部」表現への処理を含むループを含むシステムに適用することができる。
論文 参考訳(メタデータ) (2023-10-08T16:05:17Z) - Multi-task convolutional neural network for image aesthetic assessment [0.0]
美的属性を考慮したマルチタスク畳み込みニューラルネットワークを提案する。
提案したニューラルネットワークは、画像の全体的な美的スコアとともに属性を共同で学習する。
我々は,スピアマンのランク相関を考慮に入れた場合,全身の美的スコアからほぼ人間に近いパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-05-16T11:56:02Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - BIQ2021: A Large-Scale Blind Image Quality Assessment Database [1.3670071336891754]
本稿ではBlind Image Quality Assessment Database, BIQ2021を紹介する。
データセットは、画像品質評価に使用する意図のないもの、意図的に導入した自然な歪みで撮影したもの、オープンソースの画像共有プラットフォームから撮影したもの、の3つのセットで構成されている。
データベースは、主観的スコアリング、人体統計、および各画像の標準偏差に関する情報を含む。
論文 参考訳(メタデータ) (2022-02-08T14:07:38Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。