Fugu-MT 論文翻訳(概要): AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception

論文の概要: AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception

arxiv url: http://arxiv.org/abs/2404.09624v2
Date: Thu, 18 Apr 2024 10:10:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 13:50:01.581924
Title: AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception
Title（参考訳）: AesExpert:画像美観知覚のためのマルチモーダリティ基礎モデル
Authors: Yipo Huang, Xiangfei Sheng, Zhichao Yang, Quan Yuan, Zhichao Duan, Pengfei Chen, Leida Li, Weisi Lin, Guangming Shi,
Abstract要約: 我々は,21,904の多様なソースイメージと88Kの人間の自然言語フィードバックを備えたコーパスリッチな審美的批評データベースを開発した。 AesExpertと呼ばれる、マルチモダリティのAesthetic Expertモデルを実現するために、オープンソースの一般基盤モデルを微調整します。実験により、提案したAesExpertモデルは、最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。
参考スコア（独自算出の注目度）: 74.11069437400398
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The highly abstract nature of image aesthetics perception (IAP) poses significant challenge for current multimodal large language models (MLLMs). The lack of human-annotated multi-modality aesthetic data further exacerbates this dilemma, resulting in MLLMs falling short of aesthetics perception capabilities. To address the above challenge, we first introduce a comprehensively annotated Aesthetic Multi-Modality Instruction Tuning (AesMMIT) dataset, which serves as the footstone for building multi-modality aesthetics foundation models. Specifically, to align MLLMs with human aesthetics perception, we construct a corpus-rich aesthetic critique database with 21,904 diverse-sourced images and 88K human natural language feedbacks, which are collected via progressive questions, ranging from coarse-grained aesthetic grades to fine-grained aesthetic descriptions. To ensure that MLLMs can handle diverse queries, we further prompt GPT to refine the aesthetic critiques and assemble the large-scale aesthetic instruction tuning dataset, i.e. AesMMIT, which consists of 409K multi-typed instructions to activate stronger aesthetic capabilities. Based on the AesMMIT database, we fine-tune the open-sourced general foundation models, achieving multi-modality Aesthetic Expert models, dubbed AesExpert. Extensive experiments demonstrate that the proposed AesExpert models deliver significantly better aesthetic perception performances than the state-of-the-art MLLMs, including the most advanced GPT-4V and Gemini-Pro-Vision. Source data will be available at https://github.com/yipoh/AesExpert.
Abstract（参考訳）: 画像美学知覚(IAP)の高度に抽象的な性質は、現在のマルチモーダル大言語モデル(MLLM)に重大な課題をもたらす。このジレンマはさらに悪化し、MLLMは美学の知覚能力に欠ける。上記の課題に対処するため,我々はまず,マルチモーダルな美学基礎モデル構築の基盤となる,包括的アノテーション付きマルチモーダル・インストラクション・チューニング(AesMMIT)データセットを導入する。具体的には,MLLMを人間の審美的知覚に合わせるために,コーパスリッチな審美的批判データベースを構築した。 MLLMが多様なクエリを扱えるようにするために、GPTに麻酔的批評を洗練させ、大規模な麻酔的指導訓練データセット、すなわち409Kのマルチタイプ命令からなるAesMMITを組み立て、より強力な麻酔的能力を活性化させる。 AesMMITデータベースをベースとして,オープンソース基盤モデルを微調整し,AesExpertと呼ばれるマルチモダリティAesthetic Expertモデルを実現する。大規模な実験により、提案されたAesExpertモデルは、最先端のGPT-4VやGemini-Pro-Visionを含む最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。ソースデータはhttps://github.com/yipoh/AesExpert.comで入手できる。

関連論文リスト

Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文参考訳（メタデータ） (2025-12-06T04:20:13Z)
AesTest: Measuring Aesthetic Intelligence from Perception to Production [48.70942686586114]
AesTestはマルチモーダルな審美的認識とプロダクションのためのベンチマークである。それは10のタスクにまたがる複数の選択の質問から成り、知覚、鑑賞、創造、写真などをカバーする。プロの編集、写真合成チュートリアル、クラウドソースによる好みなど、さまざまなソースのデータを統合している。 IAA MLLM と一般MLLM の両方を AesTest 上で評価し,審美的知能構築における重要な課題を明らかにした。
論文参考訳（メタデータ） (2025-11-09T12:44:10Z)
Aesthetic Image Captioning with Saliency Enhanced MLLMs [26.924932114765596]
Aesthetic Image Captioning (AIC)は、画像美学のテキスト記述を作成することを目的としている。本稿では,画像から審美性特徴を効果的かつ効果的に抽出するAesthetic Saliency Module (IASM)を紹介する。また,MLLMのイメージエンコーダとしてIAS-ViTを設計した。
論文参考訳（メタデータ） (2025-09-04T16:40:15Z)
Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文参考訳（メタデータ） (2025-03-15T06:58:09Z)
Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning [14.405750888492735]
Image Aesthetic Assessment (IAA) は、画像の美的価値を分析し評価する作業である。 IAAの伝統的な手法は、しばしば単一の美的タスクに集中し、ラベル付きデータセットが不十分である。審美的洞察をニュアンス化した総合的審美的MLLMを提案する。
論文参考訳（メタデータ） (2024-12-16T16:35:35Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2024-06-13T17:59:20Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文参考訳（メタデータ） (2024-01-16T10:58:07Z)
PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文参考訳（メタデータ） (2024-01-01T03:45:07Z)
Unveiling The Factors of Aesthetic Preferences with Explainable AI [0.0]
本研究では,機械学習(ML)モデルを用いて,新しい視点を開拓する。我々のモデルはこれらの属性を入力として処理し、画像の美的スコアを予測する。本研究の目的は,画像における審美的嗜好の複雑な性質をMLを通して明らかにし,審美的判断に影響を及ぼす属性をより深く理解することである。
論文参考訳（メタデータ） (2023-11-24T11:06:22Z)
Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models [81.20804369985376]
我々は,低レベルの視覚に対する多数の人間のフィードバックを収集する大規模主観的実験を行う。構築された**Q-Pathway**データセットには、18,973イメージに関する58万の詳細な人間のフィードバックが含まれている。我々は、GPT参加型変換を設計し、これらのフィードバックを多種多様な200K命令応答対に処理する。
論文参考訳（メタデータ） (2023-11-12T09:10:51Z)
VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-03-24T23:57:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。