論文の概要: Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision:
Insights from Group and Individual Assessments
- arxiv url: http://arxiv.org/abs/2403.03594v1
- Date: Wed, 6 Mar 2024 10:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:24:33.550779
- Title: Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision:
Insights from Group and Individual Assessments
- Title(参考訳): GPT-4の視覚による審美的評価能力の評価:グループと個人による評価から
- Authors: Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi
- Abstract要約: 本研究は,画像の美的評価課題に対するビジョン付きGPT-4の性能について検討する。
我々は,グループの平均評価値と個人の評価値の予測という2つのタスクを採用する。
GPT-4は美的評価の予測に優れた性能を示し,美容と美容に対する異なる反応の性質を示した。
- 参考スコア(独自算出の注目度): 2.539875353011627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, it has been recognized that large language models demonstrate high
performance on various intellectual tasks. However, few studies have
investigated alignment with humans in behaviors that involve sensibility, such
as aesthetic evaluation. This study investigates the performance of GPT-4 with
Vision, a state-of-the-art language model that can handle image input, on the
task of aesthetic evaluation of images. We employ two tasks, prediction of the
average evaluation values of a group and an individual's evaluation values. We
investigate the performance of GPT-4 with Vision by exploring prompts and
analyzing prediction behaviors. Experimental results reveal GPT-4 with Vision's
superior performance in predicting aesthetic evaluations and the nature of
different responses to beauty and ugliness. Finally, we discuss developing an
AI system for aesthetic evaluation based on scientific knowledge of the human
perception of beauty, employing agent technologies that integrate traditional
deep learning models with large language models.
- Abstract(参考訳): 近年,大規模言語モデルは様々な知的タスクにおいて高い性能を示すことが認識されている。
しかしながら、審美的評価など、感受性を伴う行動における人間との整合性を研究する研究はほとんどない。
本研究では,画像の美的評価作業において,画像入力を処理可能な最先端言語モデルであるビジョンを用いたGPT-4の性能について検討する。
我々は,グループの平均評価値と個人の評価値の予測という2つのタスクを採用する。
我々は,プロンプトを探索し,予測行動を分析することで,gpt-4の性能を視覚で検証する。
GPT-4は美的評価の予測に優れた性能を示し,美容と美容に対する異なる反応の性質を示した。
最後に,従来のディープラーニングモデルと大規模言語モデルを統合するエージェント技術を用いて,美意識の科学的知識に基づく美的評価のためのaiシステムの開発について述べる。
関連論文リスト
- Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。
GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。
モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文 参考訳(メタデータ) (2024-06-19T19:00:21Z) - Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam [0.0]
本研究では,OpenAIの最も先進的な視覚モデルであるChatGPT-4 Visionの性能について検討する。
試験のオープンで複数選択の質問を元の画像形式で提示することで,モデルの推論能力と自己回帰能力を評価することができた。
ChatGPT-4 Visionは、平均的な試験受験者よりも優れており、スコアパーセンタイルのトップ10に入っている。
論文 参考訳(メタデータ) (2024-06-14T02:42:30Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Grounded Intuition of GPT-Vision's Abilities with Scientific Images [44.44139684561664]
我々は、GPT-Visionの「接地された直観」を開発するために、多くの人が直感的に試みてきた過程を定式化する。
本稿では,GPT-Visionが特にプロンプトに敏感であることを示す。
我々の手法と分析は、GPT-Visionがいかにして情報にアクセスしやすくできるかを明らかにしながら、研究者が新しいモデルの基盤となる直感を高めるのに役立つことを目的としている。
論文 参考訳(メタデータ) (2023-11-03T17:53:43Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。