論文の概要: Photozilla: A Large-Scale Photography Dataset and Visual Embedding for
20 Photography Styles
- arxiv url: http://arxiv.org/abs/2106.11359v1
- Date: Mon, 21 Jun 2021 18:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:16:03.324957
- Title: Photozilla: A Large-Scale Photography Dataset and Visual Embedding for
20 Photography Styles
- Title(参考訳): Photozilla:20枚の写真スタイルのための大規模写真データセットとビジュアル埋め込み
- Authors: Trisha Singhal, Junhua Liu, Lucienne T. M. Blessing, Kwan Hui Lim
- Abstract要約: 我々は,10種類の写真スタイルに属する990万枚以上の画像を含む大規模データセット「Photozilla」を紹介した。
データセットを使用して、3つの分類モデルをトレーニングし、イメージを関連するスタイルに自動的に分類する。
また,他の10種類の写真スタイルを識別するために,精度が68%以上であることが報告された。
- 参考スコア(独自算出の注目度): 0.6308539010172307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of social media platforms has been a catalyst for the development
of digital photography that engendered a boom in vision applications. With this
motivation, we introduce a large-scale dataset termed 'Photozilla', which
includes over 990k images belonging to 10 different photographic styles. The
dataset is then used to train 3 classification models to automatically classify
the images into the relevant style which resulted in an accuracy of ~96%. With
the rapid evolution of digital photography, we have seen new types of
photography styles emerging at an exponential rate. On that account, we present
a novel Siamese-based network that uses the trained classification models as
the base architecture to adapt and classify unseen styles with only 25 training
samples. We report an accuracy of over 68% for identifying 10 other distinct
types of photography styles. This dataset can be found at
https://trisha025.github.io/Photozilla/
- Abstract(参考訳): ソーシャルメディアプラットフォームの出現は、視覚応用のブームを巻き起こしたデジタル写真の発展の触媒となった。
このモチベーションにより、10種類の異なる写真スタイルに属する990k以上の画像を含む大規模データセット「photozilla」を導入する。
データセットは、3つの分類モデルのトレーニングに使用され、イメージを関連するスタイルに自動的に分類する。
デジタル写真が急速に進化するにつれて、新しいタイプの写真スタイルが指数関数的に登場してきた。
その上で、トレーニングされた分類モデルをベースアーキテクチャとして使用し、25のトレーニングサンプルで未知のスタイルを適応・分類する、新しいシームズベースのネットワークを提案する。
10種類の異なる写真スタイルを識別できる精度は68%以上である。
このデータセットはhttps://trisha025.github.io/Photozilla/で見ることができる。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Multimodal Foundation Models for Zero-shot Animal Species Recognition in
Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。
コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-02T08:32:00Z) - New Benchmarks for Asian Facial Recognition Tasks: Face Classification
with Large Foundation Models [3.437372707846067]
本稿では,KoInという韓国の大規模インフルエンサーデータセットを提案する。
提案データセットのほとんどの画像は、Instagramのようなソーシャルネットワークサービス(SNS)から収集されている。
本誌のデータセットKoInには、100あまりの韓国の有名人の写真10万枚が載っている。
論文 参考訳(メタデータ) (2023-10-15T06:51:03Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Florida Wildlife Camera Trap Dataset [48.99466876948454]
フロリダ州南西部の2つの異なる場所から収集された野生生物カメラトラップ分類データセットについて紹介する。
データセットは104,495枚の画像からなり、視覚的に類似した種、様々な照明条件、スキュードクラス分布、絶滅危惧種のサンプルを含む。
論文 参考訳(メタデータ) (2021-06-23T18:53:15Z) - How many images do I need? Understanding how sample size per class
affects deep learning model performance metrics for balanced designs in
autonomous wildlife monitoring [0.0]
本研究では,各クラス(種目)のサンプルサイズを段階的に増加させるために,ディープラーニングモデルの性能に関する課題を深く検討する。
我々は,動物種毎の画像の精度を推定するための近似式を生態学者に提供する。
論文 参考訳(メタデータ) (2020-10-16T06:28:35Z) - Salienteye: Maximizing Engagement While Maintaining Artistic Style on
Instagram Using Deep Neural Networks [27.469454386934274]
我々は、画像Netデータセット上で訓練されたオブジェクト認識のモデルであるXceptionをエンゲージメント予測のタスクに適用するために、トランスファーラーニングを使用する。
また、スタイル類似度測定のタスクとして、ImageNetでトレーニングされたもう1つのオブジェクト認識モデルであるVGG19から生成されたグラム行列を使用する。
私たちのモデルは、個別のInstagramアカウントでトレーニングして、パーソナライズされたエンゲージメント予測とスタイルの類似性モデルを作成することができます。
論文 参考訳(メタデータ) (2020-06-13T01:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。