論文の概要: Automatic Main Character Recognition for Photographic Studies
- arxiv url: http://arxiv.org/abs/2106.09064v1
- Date: Wed, 16 Jun 2021 18:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:06:02.706897
- Title: Automatic Main Character Recognition for Photographic Studies
- Title(参考訳): 写真研究のための主文字自動認識
- Authors: Mert Seker, Anssi M\"annist\"o, Alexandros Iosifidis and Jenni
Raitoharju
- Abstract要約: 画像の主人公は、最初に見る人の注意を引く最も重要な人間である。
画像中の主文字の同定は,従来の写真研究やメディア分析において重要な役割を担っている。
機械学習に基づく人間のポーズ推定を用いて主文字を識別する手法を提案する。
- 参考スコア(独自算出の注目度): 78.88882860340797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Main characters in images are the most important humans that catch the
viewer's attention upon first look, and they are emphasized by properties such
as size, position, color saturation, and sharpness of focus. Identifying the
main character in images plays an important role in traditional photographic
studies and media analysis, but the task is performed manually and can be slow
and laborious. Furthermore, selection of main characters can be sometimes
subjective. In this paper, we analyze the feasibility of solving the main
character recognition needed for photographic studies automatically and propose
a method for identifying the main characters. The proposed method uses machine
learning based human pose estimation along with traditional computer vision
approaches for this task. We approach the task as a binary classification
problem where each detected human is classified either as a main character or
not. To evaluate both the subjectivity of the task and the performance of our
method, we collected a dataset of 300 varying images from multiple sources and
asked five people, a photographic researcher and four other persons, to
annotate the main characters. Our analysis showed a relatively high agreement
between different annotators. The proposed method achieved a promising F1 score
of 0.83 on the full image set and 0.96 on a subset evaluated as most clear and
important cases by the photographic researcher.
- Abstract(参考訳): 画像中の主な文字は、最初に見る人の注意を引く最も重要な人間であり、大きさ、位置、彩度、焦点の鋭さなどによって強調される。
画像中の主文字の同定は,従来の写真研究やメディア分析において重要な役割を担っているが,作業は手作業で行われ,動作が遅く,手間がかかる。
また、主文字の選択を主観的に行う場合もある。
本稿では,写真研究に必要な主文字認識を自動で解くことの実現可能性を分析し,主文字を識別する方法を提案する。
提案手法は,機械学習に基づく人間のポーズ推定と従来のコンピュータビジョンのアプローチを用いた。
本研究では,検出された人それぞれを主文字として分類する二項分類問題としてタスクにアプローチする。
課題の主観性と手法の性能の両方を評価するため,複数のソースから300種類の画像のデータセットを収集し,写真研究者と他の4人の人物に対して,主文字に注釈を付けるように依頼した。
分析の結果,アノテータ間では比較的高い一致を示した。
提案手法は, フルイメージセットで0.83点, 写真研究者でもっとも明確かつ重要な症例として評価されたサブセットで0.96点を得た。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Structuring Quantitative Image Analysis with Object Prominence [0.0]
データとして画像を分析するための重要なステップとして,オブジェクトの優位性について慎重に検討する。
我々の手法は質的な分析と定量的アプローチのスケーラビリティを組み合わせる。
論文 参考訳(メタデータ) (2024-08-30T19:05:28Z) - Understanding Subjectivity through the Lens of Motivational Context in Model-Generated Image Satisfaction [21.00784031928471]
画像生成モデルは、様々なアプリケーションでユビキタスになる可能性がある。
これらのモデルは、しばしば、普遍的な標準を仮定する人間の品質判断を用いて微調整され評価される。
主観性とその影響の規模を定量化するために, 異なるユースケースにおいて, 人間のアノテータ間で評価がどう異なるかを測定する。
論文 参考訳(メタデータ) (2024-02-27T01:16:55Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Pre-training strategies and datasets for facial representation learning [58.8289362536262]
いくつかの顔分析タスクやデータセットに適用可能な普遍的な顔表現の探索方法を示す。
顔に適応する2つの大規模表現学習を体系的に検討する。
私たちの主な2つの発見は以下の通りです: 完全にインザワイルドな未処理データに対する教師なし事前トレーニングは一貫性を提供し、場合によっては大幅な精度向上をもたらします。
論文 参考訳(メタデータ) (2021-03-30T17:57:25Z) - A Survey of Hand Crafted and Deep Learning Methods for Image Aesthetic
Assessment [2.9005223064604078]
本稿では,最近の自動画像美学評価技術について文献的考察を行う。
伝統的なハンドクラフトとディープラーニングベースのアプローチが多数レビューされています。
論文 参考訳(メタデータ) (2021-03-22T07:00:56Z) - Learning to Detect Important People in Unlabelled Images for
Semi-supervised Important People Detection [85.91577271918783]
本稿では,部分的に注釈付けされた画像から重要な人物を検出することを提案する。
提案手法では,未注釈画像の個人に対して擬似ラベルを割り当てることが反復的に学習される。
評価のために2つの大規模データセットを収集した。
論文 参考訳(メタデータ) (2020-04-16T10:09:37Z) - An Empirical Study of Person Re-Identification with Attributes [15.473033192858543]
本稿では, 属性に基づく手法を提案し, 興味のある人物を視覚的属性の集合として記述する。
複数のアルゴリズムを比較し、属性の品質がパフォーマンスに与える影響を分析する。
キーとなる結論は、専門家が注釈付けした属性ではなく、専門家でない属性によって達成されるパフォーマンスは、個人を再識別するための属性ベースのアプローチのステータスクォーのより忠実な指標である、ということだ。
論文 参考訳(メタデータ) (2020-01-25T22:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。