論文の概要: The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers
- arxiv url: http://arxiv.org/abs/2509.18582v1
- Date: Tue, 23 Sep 2025 02:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.673333
- Title: The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers
- Title(参考訳): フォトグラファーの目:マルチモーダルな大言語モデルにカメラマンのように観察と批評を教える
- Authors: Daiqing Qi, Handong Zhao, Jing Shi, Simon Jenni, Yifei Fan, Franck Dernoncourt, Scott Cohen, Sheng Li,
- Abstract要約: 写真家でキュレーターのSzarkowskiは、一般的な視覚的理解と美的理解との間にある顕著なギャップの1つを洞察的に明らかにした。
プロの写真家と愛好家の間で広範囲にわたる議論から得られた新しいデータセットPhotoCritiqueを提示する。
また,複数の視点から画像美学を理解するために,言語誘導型多視点視覚融合機構を備えた新しいモデルPhotoEyeを提案する。
- 参考スコア(独自算出の注目度): 82.99499130882576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While editing directly from life, photographers have found it too difficult to see simultaneously both the blue and the sky. Photographer and curator, Szarkowski insightfully revealed one of the notable gaps between general and aesthetic visual understanding: while the former focuses on identifying the factual element in an image (sky), the latter transcends such object identification, viewing it instead as an aesthetic component--a pure color block (blue). Such fundamental distinctions between general (detection, localization, etc.) and aesthetic (color, lighting, composition, etc.) visual understanding present a significant challenge for Multimodal Large Language Models (MLLMs). Although some recent works have made initial explorations, they are often limited to general and basic aesthetic commonsense. As a result, they frequently fall short in real-world scenarios (Fig. 1), which require extensive expertise--including photographic techniques, photo pre/post-processing knowledge, and more, to provide a detailed analysis and description. To fundamentally enhance the aesthetics understanding of MLLMs, we first introduce a novel dataset, PhotoCritique, derived from extensive discussions among professional photographers and enthusiasts, and characterized by the large scale, expertise, and diversity. Then, to better learn visual aesthetics from PhotoCritique, we furthur propose a novel model, PhotoEye, featuring a languageguided multi-view vision fusion mechanism to understand image aesthetics from multiple perspectives. Finally, we present a novel benchmark, PhotoBench, a comprehensive and professional benchmark for aesthetic visual understanding. On existing benchmarks and PhotoBench, our model demonstrates clear advantages over existing models.
- Abstract(参考訳): 写真家たちは、人生から直接編集しながらも、青と空の両方を同時に見るのが難しいと感じています。
フォトグラファーでキュレーターのSzarkowskiは、一般的な視覚的理解と美的視覚的理解の間に顕著なギャップの1つを洞察的に明らかにした: 前者は画像(スキー)の事実的要素を識別することに焦点を当て、後者はそのような物体の識別を超越し、代わりに美的構成要素、つまり純粋な色ブロック(青)とみなす。
一般(検出、局所化等)と美的(色、照明、構成等)の視覚的理解の基本的な区別は、MLLM(Multimodal Large Language Models)にとって重要な課題である。
近年のいくつかの研究で最初の探検が行われたが、一般的には一般的な審美的常識に限られることが多い。
その結果、実世界のシナリオではしばしば不足する(第1図)。詳細な分析と記述を提供するには、写真技術、写真前処理の知識など、幅広い専門知識を必要とする。
MLLMの審美的理解を根本的に強化するために,プロの写真家や愛好家による広範な議論から得られた新しいデータセットPhotoCritiqueを導入し,大規模,専門知識,多様性を特徴とする。
そして,PhotoCritiqueから視覚美学をよりよく学ぶために,複数の視点から画像美学を理解するための言語誘導型多視点視覚融合機構を備えた新しいモデルPhotoEyeを提案する。
最後に,美的視覚理解のための総合的かつ専門的なベンチマークであるPhotoBenchを紹介する。
既存のベンチマークとPhotoBenchでは、既存のモデルに対する明らかなアドバンテージが示されています。
関連論文リスト
- CameraBench: Benchmarking Visual Reasoning in MLLMs via Photography [12.305953690308085]
大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)は、非常に高度な人工知能を備えている。
OpenAI o1やGemini 2.0 Flash Thinkingのような推論モデルを含む最近の進歩は、この機能を開放した。
写真は、物理がカメラパラメータと相互作用する物理世界の視覚的なスナップショットであるため、写真関連のタスクに特に焦点をあてる。
論文 参考訳(メタデータ) (2025-04-14T10:53:44Z) - Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning [14.405750888492735]
Image Aesthetic Assessment (IAA) は、画像の美的価値を分析し評価する作業である。
IAAの伝統的な手法は、しばしば単一の美的タスクに集中し、ラベル付きデータセットが不十分である。
審美的洞察をニュアンス化した総合的審美的MLLMを提案する。
論文 参考訳(メタデータ) (2024-12-16T16:35:35Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - For a semiotic AI: Bridging computer vision and visual semiotics for computational observation of large scale facial image archives [3.418398936676879]
この研究は、ソーシャルメディアプラットフォームにおける画像の社会的・文化的影響を大規模に調査するためのフレームワークであるFRESCOを提示する。
FRESCOは、最新のコンピュータビジョン技術を用いて、画像を数値変数と分類変数に分解する。
このフレームワークは、線や色のような基本的な視覚的特徴を含むプラスティックレベル、特定の実体や概念を表す図形レベル、特にオブザーバーとオブザーバーの視点を構築することに焦点を当てた啓示レベルという3つのレベルにわたって画像を分析する。
論文 参考訳(メタデータ) (2024-07-03T16:57:38Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。