論文の概要: Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping
- arxiv url: http://arxiv.org/abs/2602.23980v1
- Date: Fri, 27 Feb 2026 12:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.427588
- Title: Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping
- Title(参考訳): Venus: 美的ガイダンスとクロップのためのマルチモーダルな大規模言語モデルのベンチマークと強化
- Authors: Tianxiang Du, Hulingxiao He, Yuxin Peng,
- Abstract要約: スマートフォンは写真撮影をユビキタスにしてきたが、一般ユーザーとプロの写真家の間には明らかなギャップが残っている。
我々は, 審美学において, 審美指導 (AG) は必須だが, ほとんど探索されていない領域として定義する。
私たちはAesGuideを紹介します。AesGuideはAGの最初の大規模データセットで、10,748枚の写真に美的スコア、分析、ガイダンスを付加したベンチマークです。
我々は,段階的に複雑な審美的質問を通じて,まずMLLMをAG能力で強化する2段階のフレームワークであるVenusを提案する。
- 参考スコア(独自算出の注目度): 47.103757942619914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of smartphones has made photography ubiquitous, yet a clear gap remains between ordinary users and professional photographers, who can identify aesthetic issues and provide actionable shooting guidance during capture. We define this capability as aesthetic guidance (AG) -- an essential but largely underexplored domain in computational aesthetics. Existing multimodal large language models (MLLMs) primarily offer overly positive feedback, failing to identify issues or provide actionable guidance. Without AG capability, they cannot effectively identify distracting regions or optimize compositional balance, thus also struggling in aesthetic cropping, which aims to refine photo composition through reframing after capture. To address this, we introduce AesGuide, the first large-scale AG dataset and benchmark with 10,748 photos annotated with aesthetic scores, analyses, and guidance. Building upon it, we propose Venus, a two-stage framework that first empowers MLLMs with AG capability through progressively complex aesthetic questions and then activates their aesthetic cropping power via CoT-based rationales. Extensive experiments show that Venus substantially improves AG capability and achieves state-of-the-art (SOTA) performance in aesthetic cropping, enabling interpretable and interactive aesthetic refinement across both stages of photo creation. Code is available at https://github.com/PKU-ICST-MIPL/Venus_CVPR2026.
- Abstract(参考訳): スマートフォンの普及により、写真は広く普及しているが、一般のユーザーとプロの写真家の間には明らかなギャップが残っている。
我々は、この能力を、コンピュータ美学において必須だがほとんど探索されていない領域である審美ガイダンス(AG)として定義する。
既存のマルチモーダルな大言語モデル(MLLM)は、主に過剰な肯定的なフィードバックを提供し、問題を特定したり、実用的なガイダンスを提供したりする。
AGの能力がなければ、注意をそらす領域を効果的に識別したり、組成バランスを最適化することはできない。
この問題を解決するために、AesGuideを紹介します。AesGuideはAGの最初の大規模データセットで、10,748枚の写真に美的スコア、分析、ガイダンスを付加したベンチマークです。
その基盤となる2段階のフレームワークであるVenusを提案する。このフレームワークは,段階的に複雑な審美的質問を通じて,まずMLLMをAG能力で強化し,CoTに基づく合理性を通じてその審美的収穫力を活性化する。
広汎な実験により、金星はAG能力を大幅に改善し、美的収穫において最先端(SOTA)のパフォーマンスを達成し、写真生成の両段階にわたって解釈可能でインタラクティブな美的洗練を可能にした。
コードはhttps://github.com/PKU-ICST-MIPL/Venus_CVPR2026で公開されている。
関連論文リスト
- The Photographer Eye: Teaching Multimodal Large Language Models to Understand Image Aesthetics like Photographers [82.99499130882576]
写真家でキュレーターのSzarkowskiは、一般的な視覚的理解と美的理解との間にある顕著なギャップの1つを洞察的に明らかにした。
プロの写真家と愛好家の間で広範囲にわたる議論から得られた新しいデータセットPhotoCritiqueを提示する。
また,複数の視点から画像美学を理解するために,言語誘導型多視点視覚融合機構を備えた新しいモデルPhotoEyeを提案する。
論文 参考訳(メタデータ) (2025-09-23T02:59:41Z) - Aesthetic Image Captioning with Saliency Enhanced MLLMs [26.924932114765596]
Aesthetic Image Captioning (AIC)は、画像美学のテキスト記述を作成することを目的としている。
本稿では,画像から審美性特徴を効果的かつ効果的に抽出するAesthetic Saliency Module (IASM)を紹介する。
また,MLLMのイメージエンコーダとしてIAS-ViTを設計した。
論文 参考訳(メタデータ) (2025-09-04T16:40:15Z) - Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。
アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。
我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文 参考訳(メタデータ) (2025-03-15T06:58:09Z) - Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning [14.405750888492735]
Image Aesthetic Assessment (IAA) は、画像の美的価値を分析し評価する作業である。
IAAの伝統的な手法は、しばしば単一の美的タスクに集中し、ラベル付きデータセットが不十分である。
審美的洞察をニュアンス化した総合的審美的MLLMを提案する。
論文 参考訳(メタデータ) (2024-12-16T16:35:35Z) - AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception [74.11069437400398]
我々は,21,904の多様なソースイメージと88Kの人間の自然言語フィードバックを備えたコーパスリッチな審美的批評データベースを開発した。
AesExpertと呼ばれる、マルチモダリティのAesthetic Expertモデルを実現するために、オープンソースの一般基盤モデルを微調整します。
実験により、提案したAesExpertモデルは、最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。
論文 参考訳(メタデータ) (2024-04-15T09:56:20Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Series Photo Selection via Multi-view Graph Learning [52.33318426088579]
連続写真選択(SPS)は画像美学の質評価の重要な分野である。
我々は,マルチビュー特徴間の関係を構築するために,グラフニューラルネットワークを利用する。
ほぼ同一の一連の写真の中から最適なものを選択するために、シアムズネットワークが提案されている。
論文 参考訳(メタデータ) (2022-03-18T04:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。