Fugu-MT 論文翻訳(概要): QUASAR: QUality and Aesthetics Scoring with Advanced Representations

論文の概要: QUASAR: QUality and Aesthetics Scoring with Advanced Representations

arxiv url: http://arxiv.org/abs/2403.06866v2
Date: Tue, 12 Mar 2024 08:28:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 11:23:49.205760
Title: QUASAR: QUality and Aesthetics Scoring with Advanced Representations
Title（参考訳）: quasar: 高度な表現による品質と美学のスコア付け
Authors: Sergey Kastryulin, Denis Prokopenko, Artem Babenko, Dmitry V. Dylov
Abstract要約: 本稿では,画像品質と美学評価のための新しいデータ駆動非パラメトリック手法を提案する。データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
参考スコア（独自算出の注目度）: 22.06149682695759
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper introduces a new data-driven, non-parametric method for image quality and aesthetics assessment, surpassing existing approaches and requiring no prompt engineering or fine-tuning. We eliminate the need for expressive textual embeddings by proposing efficient image anchors in the data. Through extensive evaluations of 7 state-of-the-art self-supervised models, our method demonstrates superior performance and robustness across various datasets and benchmarks. Notably, it achieves high agreement with human assessments even with limited data and shows high robustness to the nature of data and their pre-processing pipeline. Our contributions offer a streamlined solution for assessment of images while providing insights into the perception of visual information.
Abstract（参考訳）: 本稿では,画像品質と美的評価のための新しいデータ駆動型非パラメトリック手法を提案する。データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。 7つの最先端の自己教師付きモデルの広範な評価を通じて、様々なデータセットとベンチマークで優れたパフォーマンスと堅牢性を示す。特に、限られたデータでも人間評価と高い一致を達成し、データの性質と前処理パイプラインに対して高い堅牢性を示す。私たちのコントリビューションは、視覚情報の知覚に関する洞察を提供しながら、画像の評価を合理化するソリューションを提供します。

関連論文リスト

Towards Generalized Multimodal Homography Estimation [43.13726458321087]
教師なしと教師なしのホモグラフィー推定法は、精度を高めるために特定のモダリティに合わせて調整された画像対に依存する。本研究では,1つの入力画像から接地トラスオフセットと不整合な画像ペアを生成する訓練データ合成手法を提案する。われわれのアプローチでは、画像のペアを様々なテクスチャと色で表現し、その構造情報を保存している。
論文参考訳（メタデータ） (2026-03-04T11:35:56Z)
Bridging Cognitive Gap: Hierarchical Description Learning for Artistic Image Aesthetics Assessment [51.40989269202702]
審美的品質評価タスクは,AIGCの定量的評価システムの開発に不可欠である。本研究では,記述生成による美的次元の分離を図った芸術的画像の美的評価フレームワークであるArtQuantを提案する。提案手法は,従来のトレーニングの33%しか必要とせず,いくつかのデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-12-29T12:18:26Z)
Q-REAL: Towards Realism and Plausibility Evaluation for AI-Generated Content [71.46991494014382]
本稿では,AI生成画像におけるリアリズムと妥当性の詳細な評価のための新しいデータセットであるQ-Realを紹介する。 Q-Realは、人気のあるテキスト・ツー・イメージ・モデルによって生成される3,088のイメージで構成されている。そこで本研究では,Q-Real Benchを2つの課題,すなわち判断と推論による根拠付けに基づいて評価する。
論文参考訳（メタデータ） (2025-11-21T02:43:17Z)
Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.590072198551944]
画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文参考訳（メタデータ） (2025-03-09T14:14:02Z)
Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文参考訳（メタデータ） (2025-02-27T09:37:30Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
A Survey on Quality Metrics for Text-to-Image Models [9.753473063305503]
本稿では,そのニュアンスに対処する既存のテキスト・ツー・イメージの品質指標の概要と,人間の嗜好に合わせた調整の必要性について述べる。本稿では,これらの指標を分類するための新しい分類法を提案する。我々は,テキスト・ツー・イメージ評価を行う実践者のためのガイドラインを導出し,評価メカニズムのオープンな課題と,現在の指標の限界について論じる。
論文参考訳（メタデータ） (2024-03-18T14:24:20Z)
Towards Unified Deep Image Deraining: A Survey and A New Benchmark [72.53380760079396]
本稿では,既存の画像デライニング手法の総合的なレビューと,画像デライニング手法の性能評価のための統一評価設定について述べる。我々は,5000対の高分解能合成画像と高調波とリアリズムからなるHQ-RAINという新しい高品質なベンチマークを構築し,さらなる評価を行う。
論文参考訳（メタデータ） (2023-10-05T13:35:00Z)
Fill-Up: Balancing Long-Tailed Data with Generative Models [11.91669614267993]
本論文では,テクスチュアル・インバージョンを用いた長期状況のための画像合成パイプラインを提案する。テキスト反転されたテキストトークンから生成された画像は、実領域と効果的に一致していることを示す。また,不均衡データを合成画像で埋め込むことにより,実世界のデータ不均衡のシナリオを緩和できることを示す。
論文参考訳（メタデータ） (2023-06-12T16:01:20Z)
Ambiguous Images With Human Judgments for Robust Visual Event Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文参考訳（メタデータ） (2022-10-06T17:52:20Z)
Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文参考訳（メタデータ） (2022-04-14T22:58:30Z)
Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文参考訳（メタデータ） (2022-03-11T02:37:35Z)
No-Reference Image Quality Assessment via Feature Fusion and Multi-Task Learning [29.19484863898778]
ブラインドまたはノン参照画像品質評価(NR-IQA)は基本的な問題であり、未解決であり、難しい問題である。マルチタスク学習に基づく簡易かつ効果的な汎用的ノンリフレクション(NR)画像品質評価フレームワークを提案する。このモデルでは、歪み型と主観的な人間のスコアを用いて画質を推定する。
論文参考訳（メタデータ） (2020-06-06T05:04:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。