論文の概要: An Empirical Analysis of GPT-4V's Performance on Fashion Aesthetic Evaluation
- arxiv url: http://arxiv.org/abs/2410.23730v1
- Date: Thu, 31 Oct 2024 08:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:52.440908
- Title: An Empirical Analysis of GPT-4V's Performance on Fashion Aesthetic Evaluation
- Title(参考訳): ファッション美的評価におけるGPT-4Vの性能に関する実証分析
- Authors: Yuki Hirakawa, Takashi Wada, Kazuya Morishita, Ryotaro Shimizu, Takuya Furusawa, Sai Htaung Kham, Yuki Saito,
- Abstract要約: GPT-4Vは、画像中の個人が着る服がどれだけよく合うかを推定するために用いられる。
その予測は、私たちのデータセット上の人間の判断とかなりよく一致しており、同じ色のランク付けに苦戦していることも示しています。
- 参考スコア(独自算出の注目度): 8.124942252572334
- License:
- Abstract: Fashion aesthetic evaluation is the task of estimating how well the outfits worn by individuals in images suit them. In this work, we examine the zero-shot performance of GPT-4V on this task for the first time. We show that its predictions align fairly well with human judgments on our datasets, and also find that it struggles with ranking outfits in similar colors. The code is available at https://github.com/st-tech/gpt4v-fashion-aesthetic-evaluation.
- Abstract(参考訳): ファッションの美的評価は、画像中の個人が着る衣服がいかに適しているかを推定するタスクである。
本研究では,GPT-4Vのゼロショット性能を初めて検証する。
その予測は、私たちのデータセット上の人間の判断とかなりよく一致しており、同じ色のランク付けに苦戦していることも示しています。
コードはhttps://github.com/st-tech/gpt4v-fashion-aesthetic-evaluationで公開されている。
関連論文リスト
- GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - Image Aesthetics Assessment via Learnable Queries [59.313054821874864]
本稿では,IAA-LQを用いた画像美学評価手法を提案する。
フリーズされた画像エンコーダから得られた事前訓練された画像特徴から、学習可能なクエリを適応して美的特徴を抽出する。
実世界のデータに関する実験では、IAA-LQの利点が示され、SRCCとPLCCでそれぞれ2.2%、そして2.1%が最先端の手法に勝っている。
論文 参考訳(メタデータ) (2023-09-06T09:42:16Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Aesthetic Attributes Assessment of Images with AMANv2 and DPC-CaptionsV2 [65.5524793975387]
DPC-CaptionsV2という新しいデータセットを半自動で構築する。
DPC-CaptionsV2の画像には、合成、照明、色、主題の4つの美的属性を含む。
本手法は,従来のAMANモデルよりも美的トピックに近い4つの美的属性に対するコメントを予測できる。
論文 参考訳(メタデータ) (2022-08-09T03:20:59Z) - VICTOR: Visual Incompatibility Detection with Transformers and
Fashion-specific contrastive pre-training [18.753508811614644]
Visual InCompatibility TransfORmer (VICTOR) は、1) 回帰としての全体的な互換性、2) ミスマッチアイテムの検出の2つのタスクに最適化されている。
Polyvore-MISFITと呼ばれる新しいデータセットを作成し、部分的にミスマッチした服を生成するために、Polyvoreの服のベンチマークを構築した。
一連のアブレーションと比較分析により、提案されたアーキテクチャは、現在のPolyvoreデータセットの最先端を競合し、越えることが可能であることを示している。
論文 参考訳(メタデータ) (2022-07-27T11:18:55Z) - Understanding Aesthetics with Language: A Photo Critique Dataset for
Aesthetic Assessment [6.201485014848172]
74K画像と220Kコメントを含むCritique Photo Redditデータセット(RPCD)を提案する。
我々は、美的判断の指標として批判の感情の極性を利用する。
論文 参考訳(メタデータ) (2022-06-17T08:16:20Z) - Style-Based Global Appearance Flow for Virtual Try-On [119.95115739956661]
本研究では, 新たなグローバルな外見フロー推定モデルを提案する。
仮想試行ベンチマークによる実験結果から,本手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-04-03T10:58:04Z) - Bootstrapping Complete The Look at Pinterest [8.503851753592512]
PinterestにおけるComplete The Look(CTL)システムのブートストラップについて説明する。
これは「スタイル整合性」の主観的な課題を学習し、衣服を完成させる補完的な項目を推薦することを目的とした技術である。
100万以上の服と400万のオブジェクトからなる私たちの服のデータセットを紹介します。
論文 参考訳(メタデータ) (2020-06-18T18:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。