論文の概要: AI Outperforms Humans in Personalized Image Aesthetics Assessment via LLM-Based Interviews and Semantic Feature Extraction
- arxiv url: http://arxiv.org/abs/2605.14761v1
- Date: Thu, 14 May 2026 12:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.81661
- Title: AI Outperforms Humans in Personalized Image Aesthetics Assessment via LLM-Based Interviews and Semantic Feature Extraction
- Title(参考訳): LLMベースのインタビューと意味的特徴抽出によるパーソナライズされた画像美学評価においてAIは人間より優れる
- Authors: Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi,
- Abstract要約: 画像の個々の美的評価を正確に予測することは、AIの基本的な課題である。
半構造化インタビューを通して美的嗜好を取り入れた統合型DL-LLMシステムを開発した。
以上の結果から,提案システムは高画質画像に対して特に高い性能を示し,その性能に優れることがわかった。
- 参考スコア(独自算出の注目度): 2.905751301655124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately predicting individual aesthetic evaluation for images is a fundamental challenge for AI. Various deep learning (DL)-based models have been proposed for this task, training on image evaluation data to extract objective low-level features. However, aesthetic preferences are inherently subjective and individual-dependent. Accurate prediction thus requires the extraction of high-level semantic features of images and the active collection of preference information from the target individual. To address this issue, we focus on the utility of Large Language Models (LLMs) pretrained on vast amounts of textual data, and develop an integrated DL-LLM system. The system actively elicits aesthetic preferences through LLM-based semi-structured interviews and predicts aesthetic evaluation by leveraging both low-level and high-level features. In our experiments, we compare the proposed system against conventional systems, human predictors, and the target individual's own re-evaluations after a certain time interval. Our results show that the proposed system outperforms all of them, with particularly strong performance on highly-rated images. Moreover, the prediction error of the proposed system is smaller than within-person variability, while human predictors show the largest error, likely due to the influence of their own aesthetic values. These results suggest that AI may be better positioned than others or one's future self to capture individual aesthetic preferences at a given point. This opens a new question of whether AI could serve as a deeper interpreter of human aesthetic sensibility than humans themselves.
- Abstract(参考訳): 画像の個々の美的評価を正確に予測することは、AIの基本的な課題である。
この課題に対して,様々なディープラーニング(DL)モデルが提案され,画像評価データを用いて目的の低レベル特徴を抽出する訓練が行われている。
しかし、美的嗜好は本質的に主観的で個人依存である。
したがって、正確な予測には、画像の高レベルな意味的特徴の抽出と、対象個人からの好み情報のアクティブな収集が必要である。
この問題に対処するために,大量のテキストデータに基づいて事前訓練されたLarge Language Models (LLMs) の有用性に着目し,DL-LLMシステムを構築する。
本システムは,LLMに基づく半構造化面接を通じて審美的嗜好を積極的に導き,低レベル特徴と高レベル特徴の両方を活用することで審美的評価を予測する。
実験では,提案システムと従来のシステム,ヒトの予測器,特定の時間間隔後に対象者の自己評価とを比較した。
以上の結果から,提案システムは高画質の画像に対して特に高い性能を示し,その性能に優れていた。
さらに,提案手法の予測誤差は人体内変動よりも小さいが,人体予測器は審美値の影響を受けやすいため,最大の誤差を示す。
これらの結果から,AIは他者や将来の自己よりも,特定の点において個々の美的嗜好を捉えた方がよい可能性が示唆された。
このことは、AIが人間の美的感受性を人間自身よりも深く解釈できるかどうかという新たな疑問を提起する。
関連論文リスト
- Systematic Reward Gap Optimization for Mitigating VLM Hallucinations [34.71750379630014]
本稿では,報酬ギャップ構成の体系的最適化を目的とした新しいフレームワークであるトピックレベルの参照書き換え(TPR)を紹介する。
TPRは、詳細なセマンティック詳細をトピックレベルに制御し、高度なデータキュレーション戦略を可能にする。
ObjectHal-Benchでは幻覚を最大93%減少させ、堅牢で費用対効果の高いVLMアライメントに対して優れたデータ効率を示す。
論文 参考訳(メタデータ) (2024-11-26T09:42:07Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Quality Assessment for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。