論文の概要: QUASAR: QUality and Aesthetics Scoring with Advanced Representations
- arxiv url: http://arxiv.org/abs/2403.06866v2
- Date: Tue, 12 Mar 2024 08:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:23:49.205760
- Title: QUASAR: QUality and Aesthetics Scoring with Advanced Representations
- Title(参考訳): quasar: 高度な表現による品質と美学のスコア付け
- Authors: Sergey Kastryulin, Denis Prokopenko, Artem Babenko, Dmitry V. Dylov
- Abstract要約: 本稿では,画像品質と美学評価のための新しいデータ駆動非パラメトリック手法を提案する。
データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
- 参考スコア(独自算出の注目度): 22.06149682695759
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces a new data-driven, non-parametric method for image
quality and aesthetics assessment, surpassing existing approaches and requiring
no prompt engineering or fine-tuning. We eliminate the need for expressive
textual embeddings by proposing efficient image anchors in the data. Through
extensive evaluations of 7 state-of-the-art self-supervised models, our method
demonstrates superior performance and robustness across various datasets and
benchmarks. Notably, it achieves high agreement with human assessments even
with limited data and shows high robustness to the nature of data and their
pre-processing pipeline. Our contributions offer a streamlined solution for
assessment of images while providing insights into the perception of visual
information.
- Abstract(参考訳): 本稿では,画像品質と美的評価のための新しいデータ駆動型非パラメトリック手法を提案する。
データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
7つの最先端の自己教師付きモデルの広範な評価を通じて、様々なデータセットとベンチマークで優れたパフォーマンスと堅牢性を示す。
特に、限られたデータでも人間評価と高い一致を達成し、データの性質と前処理パイプラインに対して高い堅牢性を示す。
私たちのコントリビューションは、視覚情報の知覚に関する洞察を提供しながら、画像の評価を合理化するソリューションを提供します。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - A Survey on Quality Metrics for Text-to-Image Models [9.753473063305503]
本稿では,そのニュアンスに対処する既存のテキスト・ツー・イメージの品質指標の概要と,人間の嗜好に合わせた調整の必要性について述べる。
本稿では,これらの指標を分類するための新しい分類法を提案する。
我々は,テキスト・ツー・イメージ評価を行う実践者のためのガイドラインを導出し,評価メカニズムのオープンな課題と,現在の指標の限界について論じる。
論文 参考訳(メタデータ) (2024-03-18T14:24:20Z) - Towards Unified Deep Image Deraining: A Survey and A New Benchmark [72.53380760079396]
本稿では,既存の画像デライニング手法の総合的なレビューと,画像デライニング手法の性能評価のための統一評価設定について述べる。
我々は,5000対の高分解能合成画像と高調波とリアリズムからなるHQ-RAINという新しい高品質なベンチマークを構築し,さらなる評価を行う。
論文 参考訳(メタデータ) (2023-10-05T13:35:00Z) - Fill-Up: Balancing Long-Tailed Data with Generative Models [11.91669614267993]
本論文では,テクスチュアル・インバージョンを用いた長期状況のための画像合成パイプラインを提案する。
テキスト反転されたテキストトークンから生成された画像は、実領域と効果的に一致していることを示す。
また,不均衡データを合成画像で埋め込むことにより,実世界のデータ不均衡のシナリオを緩和できることを示す。
論文 参考訳(メタデータ) (2023-06-12T16:01:20Z) - Ambiguous Images With Human Judgments for Robust Visual Event
Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文 参考訳(メタデータ) (2022-10-06T17:52:20Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - No-Reference Image Quality Assessment via Feature Fusion and Multi-Task
Learning [29.19484863898778]
ブラインドまたはノン参照画像品質評価(NR-IQA)は基本的な問題であり、未解決であり、難しい問題である。
マルチタスク学習に基づく簡易かつ効果的な汎用的ノンリフレクション(NR)画像品質評価フレームワークを提案する。
このモデルでは、歪み型と主観的な人間のスコアを用いて画質を推定する。
論文 参考訳(メタデータ) (2020-06-06T05:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。