論文の概要: Learning to Look before Learning to Like: Incorporating Human Visual Cognition into Aesthetic Quality Assessment
- arxiv url: http://arxiv.org/abs/2604.15853v1
- Date: Fri, 17 Apr 2026 09:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.841673
- Title: Learning to Look before Learning to Like: Incorporating Human Visual Cognition into Aesthetic Quality Assessment
- Title(参考訳): 学習前に見ることを学ぶ:人間の視覚認知を美的品質評価に取り入れる
- Authors: Liwen Yu, Chi Liu, Xiaotong Han, Congcong Zhu, Minghao Wang, Sheng Shen,
- Abstract要約: AestheticNetは、人間のような視覚認知と意味認識を双方向アーキテクチャに統合する新しいAQAパラダイムである。
視線対応ビジュアルエンコーダ(GAVE)として実装された視覚的注意経路は、リソース効率の良いコントラスト視線アライメントを用いて、視線追跡データをオフラインでトレーニングした。
視覚的注意は、前景/背景構造、カラーカスケード、明るさ、照明を反映する認知的事前情報を提供する。
- 参考スコア(独自算出の注目度): 10.379213455076439
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated Aesthetic Quality Assessment (AQA) treats images primarily as static pixel vectors, aligning predictions with human-rating scores largely through semantic perception. However, this paradigm diverges from human aesthetic cognition, which arises from dynamic visual exploration shaped by scanning paths, processing fluency, and the interplay between bottom-up salience and top-down intention. We introduce AestheticNet, a novel cognitive-inspired AQA paradigm that integrates human-like visual cognition and semantic perception with a two-pathway architecture. The visual attention pathway, implemented as a gaze-aligned visual encoder (GAVE) pre-trained offline on eye-tracking data using resource-efficient contrast gaze alignment, models attention from human vision system. This pathway augments the semantic pathway, which uses a fixed semantic encoder such as CLIP, through cross-attention fusion. Visual attention provides a cognitive prior reflecting foreground/background structure, color cascade, brightness, and lighting, all of which are determinants of aesthetic perception beyond semantics. Experiments validated by hypothesis testing show a consistent improvement over the semantic-alone baselines, and demonstrate the gaze module as a model-agnostic corrector compatible with diverse AQA backbones, supporting the necessity and modularity of human-like visual cognition for AQA. Our code is available at https://github.com/keepgallop/AestheticNet.
- Abstract(参考訳): AQA(Automated Aesthetic Quality Assessment)は、画像を主に静的なピクセルベクトルとして扱う。
しかし、このパラダイムは人間の審美的認知からかけ離れており、スキャンパス、処理流速、ボトムアップ・サリエンスとトップダウン・インテンションの相互作用によって形成される動的視覚的探索から生じる。
AestheticNetは認知にインスパイアされた新しいAQAパラダイムで、人間のような視覚的認知と意味認識を双方向アーキテクチャに統合する。
視線対応視覚エンコーダ(GAVE)として実装された視覚的注意経路は、リソース効率の良いコントラスト視線アライメントを用いて、視線追跡データをオフラインでトレーニングし、人間の視覚システムからの注意をモデル化する。
この経路は、CLIPのような固定されたセマンティックエンコーダを使用するセマンティックパスを強化する。
視覚的注意は、前景/背景構造、色カスケード、明るさ、照明を反映する認知的事前認識を提供する。
仮説テストによって検証された実験は、セマンティックアローンのベースラインよりも一貫した改善を示し、Gangモジュールは様々なAQAのバックボーンと互換性があり、AQAのための人間のような視覚認知の必要性とモジュール性をサポートする。
私たちのコードはhttps://github.com/keepgallop/AestheticNet.comで公開されています。
関連論文リスト
- Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。
我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。
これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-07-24T15:19:23Z) - Align and Surpass Human Camouflaged Perception: Visual Refocus Reinforcement Fine-Tuning [18.13538667261998]
現在のマルチモーダルモデルは、背景に視覚的に同化されている物体を特定する際に、人間の視覚システムと顕著な相違を示す。
我々は、人間の視覚的カモフラージュされた知覚を段階的に再現し、視覚的隠蔽コンテンツを反復的に再焦点する視覚システムを構築した。
論文 参考訳(メタデータ) (2025-05-26T07:27:18Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Connectivity-Inspired Network for Context-Aware Recognition [1.049712834719005]
視覚認知に対処するために,生体脳の回路モチーフを取り入れることの効果に焦点をあてる。
私たちの畳み込みアーキテクチャは、人間の皮質と皮質下の流れの接続にインスパイアされています。
我々はコンテキスト認識をモデル化するための新しいプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2024-09-06T15:42:10Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。