論文の概要: Scaling Up Personalized Image Aesthetic Assessment via Task Vector Customization
- arxiv url: http://arxiv.org/abs/2407.07176v2
- Date: Wed, 16 Oct 2024 05:11:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 22:51:19.923392
- Title: Scaling Up Personalized Image Aesthetic Assessment via Task Vector Customization
- Title(参考訳): タスクベクトルカスタマイズによるパーソナライズされた画像審美評価のスケールアップ
- Authors: Jooyeol Yun, Jaegul Choo,
- Abstract要約: 本稿では,画像の審美性評価や画質評価に手軽に利用できるデータベースを活用する,ユニークなアプローチを提案する。
各データベースの特徴を表すタスクベクトルの最適な組み合わせを決定することにより、個人向けにパーソナライズされたモデルを作成することに成功した。
- 参考スコア(独自算出の注目度): 37.66059382315255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of personalized image aesthetic assessment seeks to tailor aesthetic score prediction models to match individual preferences with just a few user-provided inputs. However, the scalability and generalization capabilities of current approaches are considerably restricted by their reliance on an expensive curated database. To overcome this long-standing scalability challenge, we present a unique approach that leverages readily available databases for general image aesthetic assessment and image quality assessment. Specifically, we view each database as a distinct image score regression task that exhibits varying degrees of personalization potential. By determining optimal combinations of task vectors, known to represent specific traits of each database, we successfully create personalized models for individuals. This approach of integrating multiple models allows us to harness a substantial amount of data. Our extensive experiments demonstrate the effectiveness of our approach in generalizing to previously unseen domains-a challenge previous approaches have struggled to achieve-making it highly applicable to real-world scenarios. Our novel approach significantly advances the field by offering scalable solutions for personalized aesthetic assessment and establishing high standards for future research. https://yeolj00.github.io/personal-projects/personalized-aesthetics/
- Abstract(参考訳): パーソナライズされた画像美的評価の課題は、個別の好みと少数のユーザが提供する入力とを一致させるために、審美的スコア予測モデルをカスタマイズすることである。
しかし、現在のアプローチのスケーラビリティと一般化能力は、高価なキュレートされたデータベースに依存しているため、かなり制限されている。
この長期にわたるスケーラビリティの課題を克服するため,画像の美的評価や画像品質評価に手軽に利用可能なデータベースを活用する,ユニークなアプローチを提案する。
具体的には、各データベースを、パーソナライズポテンシャルの様々な度合いを示す画像スコア回帰タスクとみなす。
各データベースの特徴を表すタスクベクトルの最適な組み合わせを決定することにより、個人向けにパーソナライズされたモデルを作成することに成功した。
複数のモデルを統合するこのアプローチは、大量のデータを活用することができます。
これまでのアプローチでは,現実のシナリオに高い適用性を持たせるのに苦戦していた。
我々の新しいアプローチは、パーソナライズされた審美的評価のためのスケーラブルなソリューションを提供し、将来の研究のための高い標準を確立することで、この分野を著しく前進させます。
https://yeolj00.github.io/personal-projects/personalized-aesthetics/
関連論文リスト
- VoxelKeypointFusion: Generalizable Multi-View Multi-Person Pose Estimation [45.085830389820956]
本研究では,多視点多人数ポーズ推定器のデータセットに対する一般化能力の評価を行う。
また、深度情報を利用した改良も検討している。
この新しいアプローチは、未知のデータセットだけでなく、異なるキーポイントにもうまく一般化できるため、最初のマルチパーソン全体の推定器が提示される。
論文 参考訳(メタデータ) (2024-10-24T13:28:40Z) - PEFT-U: Parameter-Efficient Fine-Tuning for User Personalization [9.594958534074074]
ユーザパーソナライズのためのNLPモデルの構築と評価のための新しいデータセットであるPEFT-Uベンチマークを紹介する。
多様なユーザ中心タスクのコンテキストにおいて、LLMを効率よくパーソナライズし、ユーザ固有の嗜好に適合させるという課題について検討する。
論文 参考訳(メタデータ) (2024-07-25T14:36:18Z) - DegustaBot: Zero-Shot Visual Preference Estimation for Personalized Multi-Object Rearrangement [53.86523017756224]
本稿では,視覚的嗜好学習のためのアルゴリズムであるDegustaBotを提案する。
我々は、シミュレーション表設定タスクにおいて、自然主義的個人的嗜好の大規模なデータセットを収集する。
私たちのモデルの予測の50%は、少なくとも20%の人々に受け入れられる可能性が高いことが分かりました。
論文 参考訳(メタデータ) (2024-07-11T21:28:02Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - Revealing the Underlying Patterns: Investigating Dataset Similarity,
Performance, and Generalization [0.0]
教師付きディープラーニングモデルは、特定のタスクで許容可能なパフォーマンスを達成するために、大量のラベル付きデータを必要とする。
モデル動作に関する洞察を得るために、画像イメージ、データセット、画像データセット距離を確立する。
論文 参考訳(メタデータ) (2023-08-07T13:35:53Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Ambiguous Images With Human Judgments for Robust Visual Event
Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文 参考訳(メタデータ) (2022-10-06T17:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。