論文の概要: Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms
- arxiv url: http://arxiv.org/abs/2406.09397v1
- Date: Thu, 13 Jun 2024 17:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:06:12.801205
- Title: Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms
- Title(参考訳): 検索における視覚モデルと人間の美学:ベンチマークとアルゴリズム
- Authors: Miaosen Zhang, Yixuan Wei, Zhen Xing, Yifei Ma, Zuxuan Wu, Ji Li, Zheng Zhang, Qi Dai, Chong Luo, Xin Geng, Baining Guo,
- Abstract要約: 検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 91.19304518033144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern vision models are trained on very large noisy datasets. While these models acquire strong capabilities, they may not follow the user's intent to output the desired results in certain aspects, e.g., visual aesthetic, preferred style, and responsibility. In this paper, we target the realm of visual aesthetics and aim to align vision models with human aesthetic standards in a retrieval system. Advanced retrieval systems usually adopt a cascade of aesthetic models as re-rankers or filters, which are limited to low-level features like saturation and perform poorly when stylistic, cultural or knowledge contexts are involved. We find that utilizing the reasoning ability of large language models (LLMs) to rephrase the search query and extend the aesthetic expectations can make up for this shortcoming. Based on the above findings, we propose a preference-based reinforcement learning method that fine-tunes the vision models to distill the knowledge from both LLMs reasoning and the aesthetic models to better align the vision models with human aesthetics. Meanwhile, with rare benchmarks designed for evaluating retrieval systems, we leverage large multi-modality model (LMM) to evaluate the aesthetic performance with their strong abilities. As aesthetic assessment is one of the most subjective tasks, to validate the robustness of LMM, we further propose a novel dataset named HPIR to benchmark the alignment with human aesthetics. Experiments demonstrate that our method significantly enhances the aesthetic behaviors of the vision models, under several metrics. We believe the proposed algorithm can be a general practice for aligning vision models with human values.
- Abstract(参考訳): 現代のビジョンモデルは、非常に大きなノイズの多いデータセットで訓練されています。
これらのモデルは強力な能力を得るが、視覚美学、好みのスタイル、責任といった特定の側面において、望ましい結果を出力するユーザの意図に従わないかもしれない。
本稿では,視覚美学の領域を対象とし,視覚モデルと人間の審美基準の整合を図る。
高度な検索システムは、通常、審美モデルのカスケードをリランカーやフィルターとして採用するが、これは飽和のような低レベルな特徴に制限され、スタイリスティック、文化的、知識のコンテキストが絡むと、性能が悪くなる。
大規模言語モデル(LLM)の推論能力を利用して検索クエリをリフレッシュし,審美的期待を拡大することは,この欠点を補うことができる。
以上の知見に基づいて,視覚モデルと人間の美学との整合性を高めるために,LLMの推論と美学モデルの両方から知識を抽出するために,視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
一方,検索システムを評価するために設計された希少なベンチマークでは,大規模マルチモーダリティモデル(LMM)を活用して,美的性能を高い能力で評価する。
審美評価は,LMMの堅牢性を評価する上で最も主観的な課題の1つとして,人間の美学との整合性を評価するためのHPIRという新しいデータセットを提案する。
実験により,本手法は視覚モデルの美的挙動を,いくつかの指標のもとで著しく向上させることが示された。
提案アルゴリズムは、視覚モデルと人間の価値を整合させる一般的な手法であると考えている。
関連論文リスト
- From Efficiency to Equity: Measuring Fairness in Preference Learning [3.2132738637761027]
不平等とロウルシアン正義の経済理論に触発された嗜好学習モデルの公平性を評価する。
Gini Coefficient, Atkinson Index, Kuznets Ratio を用いて,これらのモデルの公平性を定量化するための指標を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:25:56Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Unveiling The Factors of Aesthetic Preferences with Explainable AI [0.0]
本研究では,機械学習(ML)モデルを用いて,新しい視点を開拓する。
我々のモデルはこれらの属性を入力として処理し、画像の美的スコアを予測する。
本研究の目的は,画像における審美的嗜好の複雑な性質をMLを通して明らかにし,審美的判断に影響を及ぼす属性をより深く理解することである。
論文 参考訳(メタデータ) (2023-11-24T11:06:22Z) - InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation
based on Visual Illusion [1.7980584146314789]
本稿では,深層学習モデルの論理解釈能力を評価するための新しい手法を提案する。
これらのモデルを厳格にテストし、ベンチマークするために設計された、ユニークなデータセットであるInDLを構築します。
我々は、6つの古典的な幾何学的錯視を利用して、人間と機械の視覚知覚の比較フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-28T13:01:32Z) - ALL-E: Aesthetics-guided Low-light Image Enhancement [45.40896781156727]
我々は、新しいパラダイム、すなわち美学誘導低光画像強調(ALL-E)を提案する。
LLEに美的嗜好を導入し、美的報酬を伴う強化学習フレームワークでのトレーニングを動機付けている。
様々なベンチマークの結果は、最先端手法よりもall-Eの方が優れていることを示している。
論文 参考訳(メタデータ) (2023-04-28T03:34:10Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。