論文の概要: QUASAR: QUality and Aesthetics Scoring with Advanced Representations
- arxiv url: http://arxiv.org/abs/2403.06866v2
- Date: Tue, 12 Mar 2024 08:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:23:49.205760
- Title: QUASAR: QUality and Aesthetics Scoring with Advanced Representations
- Title(参考訳): quasar: 高度な表現による品質と美学のスコア付け
- Authors: Sergey Kastryulin, Denis Prokopenko, Artem Babenko, Dmitry V. Dylov
- Abstract要約: 本稿では,画像品質と美学評価のための新しいデータ駆動非パラメトリック手法を提案する。
データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
- 参考スコア(独自算出の注目度): 22.06149682695759
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces a new data-driven, non-parametric method for image
quality and aesthetics assessment, surpassing existing approaches and requiring
no prompt engineering or fine-tuning. We eliminate the need for expressive
textual embeddings by proposing efficient image anchors in the data. Through
extensive evaluations of 7 state-of-the-art self-supervised models, our method
demonstrates superior performance and robustness across various datasets and
benchmarks. Notably, it achieves high agreement with human assessments even
with limited data and shows high robustness to the nature of data and their
pre-processing pipeline. Our contributions offer a streamlined solution for
assessment of images while providing insights into the perception of visual
information.
- Abstract(参考訳): 本稿では,画像品質と美的評価のための新しいデータ駆動型非パラメトリック手法を提案する。
データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
7つの最先端の自己教師付きモデルの広範な評価を通じて、様々なデータセットとベンチマークで優れたパフォーマンスと堅牢性を示す。
特に、限られたデータでも人間評価と高い一致を達成し、データの性質と前処理パイプラインに対して高い堅牢性を示す。
私たちのコントリビューションは、視覚情報の知覚に関する洞察を提供しながら、画像の評価を合理化するソリューションを提供します。
関連論文リスト
- Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Towards Unified Deep Image Deraining: A Survey and A New Benchmark [72.53380760079396]
本稿では,既存の画像デライニング手法の総合的なレビューと,画像デライニング手法の性能評価のための統一評価設定について述べる。
我々は,5000対の高分解能合成画像と高調波とリアリズムからなるHQ-RAINという新しい高品質なベンチマークを構築し,さらなる評価を行う。
論文 参考訳(メタデータ) (2023-10-05T13:35:00Z) - A Fine-Grained Image Description Generation Method Based on Joint
Objectives [7.565093400979752]
本稿では, 共同目的物に基づく微細な画像記述生成モデルを提案する。
我々は、記述繰り返しと省略を扱う際のモデルの性能をより直感的に評価するために、新しいオブジェクトベースの評価指標を導入する。
実験の結果,提案手法はCIDErの評価基準を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-09-02T03:22:39Z) - Fill-Up: Balancing Long-Tailed Data with Generative Models [11.91669614267993]
本論文では,テクスチュアル・インバージョンを用いた長期状況のための画像合成パイプラインを提案する。
テキスト反転されたテキストトークンから生成された画像は、実領域と効果的に一致していることを示す。
また,不均衡データを合成画像で埋め込むことにより,実世界のデータ不均衡のシナリオを緩和できることを示す。
論文 参考訳(メタデータ) (2023-06-12T16:01:20Z) - Ambiguous Images With Human Judgments for Robust Visual Event
Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文 参考訳(メタデータ) (2022-10-06T17:52:20Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - No-Reference Image Quality Assessment via Feature Fusion and Multi-Task
Learning [29.19484863898778]
ブラインドまたはノン参照画像品質評価(NR-IQA)は基本的な問題であり、未解決であり、難しい問題である。
マルチタスク学習に基づく簡易かつ効果的な汎用的ノンリフレクション(NR)画像品質評価フレームワークを提案する。
このモデルでは、歪み型と主観的な人間のスコアを用いて画質を推定する。
論文 参考訳(メタデータ) (2020-06-06T05:04:10Z) - Towards Fine-grained Human Pose Transfer with Detail Replenishing
Network [96.54367984986898]
ヒューマン・ポーズ・トランスファー(HPT)は、ファッションデザイン、メディア制作、オンライン広告、バーチャルリアリティーにおいて大きな可能性を秘めている研究分野である。
既存のHPT手法は、詳細不足、内容の曖昧さ、スタイルの不整合という3つの根本的な問題に悩まされることが多い。
我々は、より難易度が高く実用的なHPTセッティングを開発し、よりセマンティックな忠実さと詳細な補充に焦点を当てた、FHPT(F Fine-fine Human Pose Transfer)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-26T03:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。