論文の概要: Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art
- arxiv url: http://arxiv.org/abs/2503.12018v1
- Date: Sat, 15 Mar 2025 06:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:13.657406
- Title: Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art
- Title(参考訳): 美学を構成する: テキストから画像へのモデルに芸術の原理を取り入れる
- Authors: Zhe Jin, Tat-Seng Chua,
- Abstract要約: 本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。
アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。
我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
- 参考スコア(独自算出の注目度): 61.28133495240179
- License:
- Abstract: Text-to-Image (T2I) diffusion models (DM) have garnered widespread adoption due to their capability in generating high-fidelity outputs and accessibility to anyone able to put imagination into words. However, DMs are often predisposed to generate unappealing outputs, much like the random images on the internet they were trained on. Existing approaches to address this are founded on the implicit premise that visual aesthetics is universal, which is limiting. Aesthetics in the T2I context should be about personalization and we propose the novel task of aesthetics alignment which seeks to align user-specified aesthetics with the T2I generation output. Inspired by how artworks provide an invaluable perspective to approach aesthetics, we codify visual aesthetics using the compositional framework artists employ, known as the Principles of Art (PoA). To facilitate this study, we introduce CompArt, a large-scale compositional art dataset building on top of WikiArt with PoA analysis annotated by a capable Multimodal LLM. Leveraging the expressive power of LLMs and training a lightweight and transferrable adapter, we demonstrate that T2I DMs can effectively offer 10 compositional controls through user-specified PoA conditions. Additionally, we design an appropriate evaluation framework to assess the efficacy of our approach.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)拡散モデル(DM)は、高忠実度出力を生成する能力と、言葉に想像力を持たせることができる人へのアクセシビリティにより、広く普及している。
しかし、DMはトレーニングされたインターネット上のランダムな画像のように、未承認の出力を生成するためにしばしば前提にされています。
これを解決するための既存のアプローチは、視覚美学が普遍的であるという暗黙の前提に基づいており、それは制限されている。
T2Iコンテキストの美学はパーソナライズに関するものでなければならない。我々は,ユーザ特定美学とT2I生成出力との整合を図る美学アライメントの新たな課題を提案する。
アートアートが美学に近づくための貴重な視点を提供する方法に触発されて、私たちは、芸術の原則(PoA)として知られる作曲の枠組みを使って視覚的な美学を体系化する。
そこで本研究では,WikiArt上に構築された大規模合成アートデータセットであるCompArtについて,有能なマルチモーダルLCMを付加したPoA解析を行った。
LLMの表現力を活用し、軽量かつトランスファー可能なアダプタを訓練し、T2I DMがユーザ指定のPoA条件により10の合成制御を効果的に提供できることを実証した。
さらに,本手法の有効性を評価するための適切な評価フレームワークを設計する。
関連論文リスト
- IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning [14.405750888492735]
Image Aesthetic Assessment (IAA) は、画像の美的価値を分析し評価する作業である。
IAAの伝統的な手法は、しばしば単一の美的タスクに集中し、ラベル付きデータセットが不十分である。
審美的洞察をニュアンス化した総合的審美的MLLMを提案する。
論文 参考訳(メタデータ) (2024-12-16T16:35:35Z) - APDDv2: Aesthetics of Paintings and Drawings Dataset with Artist Labeled Scores and Comments [45.57709215036539]
Aesthetics Paintings and Drawings dataset (APDD)は,24の異なる芸術カテゴリーと10の美的属性を含む最初の総合的な絵画コレクションである。
APDDv2は画像コーパスを拡張し、アノテーションの品質を改善し、詳細な言語コメントを特徴としている。
本稿では,ArtCLIP(Art Assessment Network for Specific Painting Styles)の改訂版について紹介する。
論文 参考訳(メタデータ) (2024-11-13T11:46:42Z) - AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception [74.11069437400398]
我々は,21,904の多様なソースイメージと88Kの人間の自然言語フィードバックを備えたコーパスリッチな審美的批評データベースを開発した。
AesExpertと呼ばれる、マルチモダリティのAesthetic Expertモデルを実現するために、オープンソースの一般基盤モデルを微調整します。
実験により、提案したAesExpertモデルは、最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。
論文 参考訳(メタデータ) (2024-04-15T09:56:20Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Training-Free Structured Diffusion Guidance for Compositional
Text-to-Image Synthesis [78.28620571530706]
大規模拡散モデルはテキスト・ツー・イメージ合成(T2I)タスクの最先端の結果を得た。
我々は,T2Iモデルの合成スキル,特により正確な属性結合と画像合成を改善する。
論文 参考訳(メタデータ) (2022-12-09T18:30:24Z) - Understanding Compositional Structures in Art Historical Images using
Pose and Gaze Priors [20.98603643788824]
画像合成は、アーティストとそのアートワークを研究するために、画像内の相互作用を分析するのに有用である。
本研究では,既存の機械学習技術を用いて,このプロセスの自動化を試みる。
本手法は, (a) 絵画のアクション領域とアクションラインの検出, (b) 前景と背景のポーズに基づくセグメンテーションの2つの中心的なテーマに焦点を当てる。
論文 参考訳(メタデータ) (2020-09-08T15:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。