論文の概要: Bridging Cognitive Gap: Hierarchical Description Learning for Artistic Image Aesthetics Assessment
- arxiv url: http://arxiv.org/abs/2512.23413v2
- Date: Mon, 05 Jan 2026 02:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.658743
- Title: Bridging Cognitive Gap: Hierarchical Description Learning for Artistic Image Aesthetics Assessment
- Title(参考訳): ブリッジング認知ギャップ:芸術的イメージ美学評価のための階層的記述学習
- Authors: Henglin Liu, Nisha Huang, Chang Liu, Jiangpeng Yan, Huijuan Huang, Jixuan Ying, Tong-Yee Lee, Pengfei Wan, Xiangyang Ji,
- Abstract要約: 審美的品質評価タスクは,AIGCの定量的評価システムの開発に不可欠である。
本研究では,記述生成による美的次元の分離を図った芸術的画像の美的評価フレームワークであるArtQuantを提案する。
提案手法は,従来のトレーニングの33%しか必要とせず,いくつかのデータセット上での最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 51.40989269202702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The aesthetic quality assessment task is crucial for developing a human-aligned quantitative evaluation system for AIGC. However, its inherently complex nature, spanning visual perception, cognition, and emotion, poses fundamental challenges. Although aesthetic descriptions offer a viable representation of this complexity, two critical challenges persist: (1) data scarcity and imbalance: existing dataset overly focuses on visual perception and neglects deeper dimensions due to the expensive manual annotation; and (2) model fragmentation: current visual networks isolate aesthetic attributes with multi-branch encoder, while multimodal methods represented by contrastive learning struggle to effectively process long-form textual descriptions. To resolve challenge (1), we first present the Refined Aesthetic Description (RAD) dataset, a large-scale (70k), multi-dimensional structured dataset, generated via an iterative pipeline without heavy annotation costs and easy to scale. To address challenge (2), we propose ArtQuant, an aesthetics assessment framework for artistic images which not only couples isolated aesthetic dimensions through joint description generation, but also better models long-text semantics with the help of LLM decoders. Besides, theoretical analysis confirms this symbiosis: RAD's semantic adequacy (data) and generation paradigm (model) collectively minimize prediction entropy, providing mathematical grounding for the framework. Our approach achieves state-of-the-art performance on several datasets while requiring only 33% of conventional training epochs, narrowing the cognitive gap between artistic images and aesthetic judgment. We will release both code and dataset to support future research.
- Abstract(参考訳): 審美的品質評価タスクは,AIGCの定量的評価システムの開発に不可欠である。
しかし、視覚的知覚、認知、感情にまたがる本質的に複雑な性質は、根本的な課題を提起する。
1)データ不足と不均衡:既存のデータセットは、高価な手書きアノテーションによって視覚的知覚に過度に焦点を合わせ、より深い次元を無視する;(2)モデルフラグメンテーション: 現在の視覚ネットワークは、美的属性をマルチブランチエンコーダで分離する一方、対照的な学習によって表現されるマルチモーダル手法は、長い形式のテキスト記述を効果的に処理するのに苦労する。
課題(1)を解決するために,我々はまず,大規模な(70k)多次元構造化データセットであるRefined Aesthetic Description(RAD)データセットを,重いアノテーションコストを伴わずに反復パイプラインから生成し,スケールしやすくする。
課題(2)に対処するため,芸術画像の美的評価フレームワークであるArtQuantを提案する。
RADの意味的妥当性(データ)と生成パラダイム(モデル)は、全体として予測エントロピーを最小化し、フレームワークの数学的基盤を提供する。
本手法は, 従来の訓練エポックの33%しか必要とせず, 芸術的イメージと美的判断の認知的ギャップを狭めることなく, 複数のデータセットで最先端のパフォーマンスを実現する。
将来の研究をサポートするために、コードとデータセットの両方をリリースします。
関連論文リスト
- Through the PRISm: Importance-Aware Scene Graphs for Image Retrieval [6.804414686833417]
PRISmは2つの新しいコンポーネントを通して画像と画像の検索を促進するマルチモーダルフレームワークである。
Importance Prediction Moduleは、イメージ内で最も重要なオブジェクトとリレーショナルトリガを特定し、保持する。
Edge-Aware Graph Neural Networkは、リレーショナル構造を明示的にエンコードし、グローバルな視覚的特徴を統合して、セマンティックなインフォメーション画像の埋め込みを生成する。
論文 参考訳(メタデータ) (2025-12-20T15:57:46Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning [14.405750888492735]
Image Aesthetic Assessment (IAA) は、画像の美的価値を分析し評価する作業である。
IAAの伝統的な手法は、しばしば単一の美的タスクに集中し、ラベル付きデータセットが不十分である。
審美的洞察をニュアンス化した総合的審美的MLLMを提案する。
論文 参考訳(メタデータ) (2024-12-16T16:35:35Z) - Retrieval-guided Cross-view Image Synthesis [3.7477511412024573]
クロスビュー画像合成は、信頼性の高い対応を確立する上で大きな課題となる。
本稿では,検索手法が効果的なクロスビュー画像合成を促進する方法を再定義する検索誘導フレームワークを提案する。
我々の研究は、情報検索と合成タスクを橋渡しし、検索技術が複雑なドメイン間合成の課題にどのように対処できるかについての洞察を提供する。
論文 参考訳(メタデータ) (2024-11-29T07:04:44Z) - Deep ContourFlow: Advancing Active Contours with Deep Learning [3.9948520633731026]
画像分割のための教師なしとワンショットの両方のアプローチのためのフレームワークを提案する。
広範なラベル付きトレーニングデータを必要とせずに、複雑なオブジェクト境界をキャプチャできる。
これは特に、注釈の不足に直面している分野である歴史学において必要である。
論文 参考訳(メタデータ) (2024-07-15T13:12:34Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。