論文の概要: Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2412.11952v1
- Date: Mon, 16 Dec 2024 16:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:33.322489
- Title: Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning
- Title(参考訳): マルチスケールテキストガイド型自己監督学習による包括的美意識の向上
- Authors: Yuti Liu, Shice Liu, Junyuan Gao, Pengtao Jiang, Hao Zhang, Jinwei Chen, Bo Li,
- Abstract要約: Image Aesthetic Assessment (IAA) は、画像の美的価値を分析し評価する作業である。
IAAの伝統的な手法は、しばしば単一の美的タスクに集中し、ラベル付きデータセットが不十分である。
審美的洞察をニュアンス化した総合的審美的MLLMを提案する。
- 参考スコア(独自算出の注目度): 14.405750888492735
- License:
- Abstract: Image Aesthetic Assessment (IAA) is a vital and intricate task that entails analyzing and assessing an image's aesthetic values, and identifying its highlights and areas for improvement. Traditional methods of IAA often concentrate on a single aesthetic task and suffer from inadequate labeled datasets, thus impairing in-depth aesthetic comprehension. Despite efforts to overcome this challenge through the application of Multi-modal Large Language Models (MLLMs), such models remain underdeveloped for IAA purposes. To address this, we propose a comprehensive aesthetic MLLM capable of nuanced aesthetic insight. Central to our approach is an innovative multi-scale text-guided self-supervised learning technique. This technique features a multi-scale feature alignment module and capitalizes on a wealth of unlabeled data in a self-supervised manner to structurally and functionally enhance aesthetic ability. The empirical evidence indicates that accompanied with extensive instruct-tuning, our model sets new state-of-the-art benchmarks across multiple tasks, including aesthetic scoring, aesthetic commenting, and personalized image aesthetic assessment. Remarkably, it also demonstrates zero-shot learning capabilities in the emerging task of aesthetic suggesting. Furthermore, for personalized image aesthetic assessment, we harness the potential of in-context learning and showcase its inherent advantages.
- Abstract(参考訳): 画像美的評価(英: Image Aesthetic Assessment、IAA)は、画像の美的価値を分析し評価し、そのハイライトと改善すべき領域を識別する、重要かつ複雑なタスクである。
IAAの伝統的な手法は、単一の美的タスクに集中し、ラベル付きデータセットが不十分なため、深い審美的理解を損なう。
MLLM(Multi-modal Large Language Models)の適用によってこの問題を克服しようとする努力にもかかわらず、これらのモデルはIAAのために未開発のままである。
そこで本研究では,審美的洞察を生かした包括的審美的MLLMを提案する。
我々のアプローチの中心は、革新的なマルチスケールのテキスト誘導型自己教師型学習技術である。
この技術はマルチスケールの機能アライメントモジュールを特徴とし、自己管理的な方法でラベルなしデータの豊富さを生かし、審美性を構造的かつ機能的に向上させる。
実験的な証拠は, 広範囲なインストラクションチューニングとともに, 美的評価, 審美的コメント, パーソナライズされた画像美的評価など, 複数のタスクにまたがる新しい最先端のベンチマークを設定したことを示している。
注目すべきは、美学の新たな課題において、ゼロショット学習能力を示すことだ。
さらに、画像美的評価のパーソナライズには、文脈内学習の可能性を活用し、その固有の利点を示す。
関連論文リスト
- Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception [74.11069437400398]
我々は,21,904の多様なソースイメージと88Kの人間の自然言語フィードバックを備えたコーパスリッチな審美的批評データベースを開発した。
AesExpertと呼ばれる、マルチモダリティのAesthetic Expertモデルを実現するために、オープンソースの一般基盤モデルを微調整します。
実験により、提案したAesExpertモデルは、最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。
論文 参考訳(メタデータ) (2024-04-15T09:56:20Z) - AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文 参考訳(メタデータ) (2024-01-16T10:58:07Z) - Unveiling The Factors of Aesthetic Preferences with Explainable AI [0.0]
本研究では,機械学習(ML)モデルを用いて,新しい視点を開拓する。
我々のモデルはこれらの属性を入力として処理し、画像の美的スコアを予測する。
本研究の目的は,画像における審美的嗜好の複雑な性質をMLを通して明らかにし,審美的判断に影響を及ぼす属性をより深く理解することである。
論文 参考訳(メタデータ) (2023-11-24T11:06:22Z) - Image Aesthetics Assessment via Learnable Queries [59.313054821874864]
本稿では,IAA-LQを用いた画像美学評価手法を提案する。
フリーズされた画像エンコーダから得られた事前訓練された画像特徴から、学習可能なクエリを適応して美的特徴を抽出する。
実世界のデータに関する実験では、IAA-LQの利点が示され、SRCCとPLCCでそれぞれ2.2%、そして2.1%が最先端の手法に勝っている。
論文 参考訳(メタデータ) (2023-09-06T09:42:16Z) - ALL-E: Aesthetics-guided Low-light Image Enhancement [45.40896781156727]
我々は、新しいパラダイム、すなわち美学誘導低光画像強調(ALL-E)を提案する。
LLEに美的嗜好を導入し、美的報酬を伴う強化学習フレームワークでのトレーニングを動機付けている。
様々なベンチマークの結果は、最先端手法よりもall-Eの方が優れていることを示している。
論文 参考訳(メタデータ) (2023-04-28T03:34:10Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。