論文の概要: Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision:
Insights from Group and Individual Assessments
- arxiv url: http://arxiv.org/abs/2403.03594v1
- Date: Wed, 6 Mar 2024 10:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:24:33.550779
- Title: Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision:
Insights from Group and Individual Assessments
- Title(参考訳): GPT-4の視覚による審美的評価能力の評価:グループと個人による評価から
- Authors: Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi
- Abstract要約: 本研究は,画像の美的評価課題に対するビジョン付きGPT-4の性能について検討する。
我々は,グループの平均評価値と個人の評価値の予測という2つのタスクを採用する。
GPT-4は美的評価の予測に優れた性能を示し,美容と美容に対する異なる反応の性質を示した。
- 参考スコア(独自算出の注目度): 2.539875353011627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, it has been recognized that large language models demonstrate high
performance on various intellectual tasks. However, few studies have
investigated alignment with humans in behaviors that involve sensibility, such
as aesthetic evaluation. This study investigates the performance of GPT-4 with
Vision, a state-of-the-art language model that can handle image input, on the
task of aesthetic evaluation of images. We employ two tasks, prediction of the
average evaluation values of a group and an individual's evaluation values. We
investigate the performance of GPT-4 with Vision by exploring prompts and
analyzing prediction behaviors. Experimental results reveal GPT-4 with Vision's
superior performance in predicting aesthetic evaluations and the nature of
different responses to beauty and ugliness. Finally, we discuss developing an
AI system for aesthetic evaluation based on scientific knowledge of the human
perception of beauty, employing agent technologies that integrate traditional
deep learning models with large language models.
- Abstract(参考訳): 近年,大規模言語モデルは様々な知的タスクにおいて高い性能を示すことが認識されている。
しかしながら、審美的評価など、感受性を伴う行動における人間との整合性を研究する研究はほとんどない。
本研究では,画像の美的評価作業において,画像入力を処理可能な最先端言語モデルであるビジョンを用いたGPT-4の性能について検討する。
我々は,グループの平均評価値と個人の評価値の予測という2つのタスクを採用する。
我々は,プロンプトを探索し,予測行動を分析することで,gpt-4の性能を視覚で検証する。
GPT-4は美的評価の予測に優れた性能を示し,美容と美容に対する異なる反応の性質を示した。
最後に,従来のディープラーニングモデルと大規模言語モデルを統合するエージェント技術を用いて,美意識の科学的知識に基づく美的評価のためのaiシステムの開発について述べる。
関連論文リスト
- Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing [20.020624506393577]
我々は,MARVLベンチマークデータセットを用いてGPT-4Vを広範囲に探索し,その能力と視覚的理解の限界について検討した。
実験結果から,GPT-4Vは文化概念の同定に優れるが,低リソース言語では依然として性能が弱いことが示唆された。
論文 参考訳(メタデータ) (2024-02-08T19:25:40Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Grounded Intuition of GPT-Vision's Abilities with Scientific Images [44.44139684561664]
我々は、GPT-Visionの「接地された直観」を開発するために、多くの人が直感的に試みてきた過程を定式化する。
本稿では,GPT-Visionが特にプロンプトに敏感であることを示す。
我々の手法と分析は、GPT-Visionがいかにして情報にアクセスしやすくできるかを明らかにしながら、研究者が新しいモデルの基盤となる直感を高めるのに役立つことを目的としている。
論文 参考訳(メタデータ) (2023-11-03T17:53:43Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Perceive, Ground, Reason, and Act: A Benchmark for General-purpose
Visual Representation [26.039045505150526]
現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。
視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2022-11-28T15:06:07Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。