論文の概要: AAPMT: AGI Assessment Through Prompt and Metric Transformer
- arxiv url: http://arxiv.org/abs/2403.19101v1
- Date: Thu, 28 Mar 2024 02:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:32:29.570276
- Title: AAPMT: AGI Assessment Through Prompt and Metric Transformer
- Title(参考訳): AAPMT: PromptとMetric TransformerによるAGIアセスメント
- Authors: Benhao Huang,
- Abstract要約: 本研究では,知覚品質,信頼度,テキストと画像の対応性などのパラメータに着目したモデルを開発する。
Metric Transformerは、様々なAGI品質指標間の複雑な関係にインスパイアされた、新しい構造である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The emergence of text-to-image models marks a significant milestone in the evolution of AI-generated images (AGIs), expanding their use in diverse domains like design, entertainment, and more. Despite these breakthroughs, the quality of AGIs often remains suboptimal, highlighting the need for effective evaluation methods. These methods are crucial for assessing the quality of images relative to their textual descriptions, and they must accurately mirror human perception. Substantial progress has been achieved in this domain, with innovative techniques such as BLIP and DBCNN contributing significantly. However, recent studies, including AGIQA-3K, reveal a notable discrepancy between current methods and state-of-the-art (SOTA) standards. This gap emphasizes the necessity for a more sophisticated and precise evaluation metric. In response, our objective is to develop a model that could give ratings for metrics, which focuses on parameters like perceptual quality, authenticity, and the correspondence between text and image, that more closely aligns with human perception. In our paper, we introduce a range of effective methods, including prompt designs and the Metric Transformer. The Metric Transformer is a novel structure inspired by the complex interrelationships among various AGI quality metrics. The code is available at https://github.com/huskydoge/CS3324-Digital-Image-Processing/tree/main/Assignment1
- Abstract(参考訳): テキスト・ツー・イメージ・モデルの出現は、AI生成画像(AGI)の進化における重要なマイルストーンであり、デザインやエンターテイメントなど、さまざまな領域での利用を拡大している。
これらのブレークスルーにもかかわらず、AGIの品質は、しばしば準最適であり、効果的な評価方法の必要性を強調している。
これらの手法は, 画像の質をテキストによる記述と比較して評価するために重要であり, 人間の知覚を正確に反映する必要がある。
この領域では、BLIPやDBCNNといった革新的な技術によって、実質的な進歩が達成されている。
しかし、AGIQA-3Kを含む最近の研究は、現在の方法とSOTA(State-of-the-art)標準との顕著な相違を明らかにしている。
このギャップは、より高度で正確な評価基準の必要性を強調する。
本研究の目的は, 知覚品質, 信頼度, テキストと画像の対応など, 人間の知覚とより密接に一致したパラメータに焦点をあてた, メトリクスのレーティングを評価できるモデルを開発することである。
本稿では,プロンプト設計やMetric Transformerなど,様々な効果的な手法を紹介する。
Metric Transformerは、様々なAGI品質指標の複雑な相互関係にインスパイアされた、新しい構造である。
コードはhttps://github.com/huskydoge/CS3324-Digital-Image-Processing/tree/main/Assignment1で公開されている。
関連論文リスト
- AI-Generated Image Quality Assessment Based on Task-Specific Prompt and Multi-Granularity Similarity [62.00987205438436]
本稿では,TSP-MGSというAIGIの品質評価手法を提案する。
タスク固有のプロンプトを設計し、AIGIとプロンプトの多粒度類似度を測定する。
一般的に使用されるAGIQA-1KとAGIQA-3Kベンチマークの実験は、提案されたTSP-MGSの優位性を示している。
論文 参考訳(メタデータ) (2024-11-25T04:47:53Z) - Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors [62.63467652611788]
実画像27,600枚、223,400枚、AI拡張画像1,472,700枚を含むSEMI-TRUTHSを紹介する。
それぞれの画像には、検出器のロバスト性の標準化と目標評価のためのメタデータが添付されている。
以上の結果から,現状の検出器は摂動の種類や程度,データ分布,拡張方法に様々な感度を示すことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T01:17:27Z) - Visual Verity in AI-Generated Imagery: Computational Metrics and Human-Centric Analysis [0.0]
我々は,フォトリアリズム,画質,テキスト画像のアライメントを計測するVisual Verityというアンケートを導入,検証した。
また, 色調, 彩度, 明度において, カメラ生成画像が低い値を示した。
その結果,人間の視覚的知覚をよりよく捉えるために,計算メトリクスの精細化の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-08-22T23:29:07Z) - Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment [13.998206803073481]
本稿では,新しい画像品質評価ネットワークであるAMFF-Netを提案する。
AMFF-Netは画像のスケールアップとスケールダウンを行い、入力としてスケールされた画像とオリジナルサイズの画像を取り込み、マルチスケールの特徴を得る。
我々は3つのAGI品質評価データベースについて広範な実験を行い、実験の結果、AMFF-Netは9つの最先端の盲点IQA法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-04-23T16:02:33Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文 参考訳(メタデータ) (2023-07-18T16:33:30Z) - AGIQA-3K: An Open Database for AI-Generated Image Quality Assessment [62.8834581626703]
我々はこれまでに最も包括的な主観的品質データベース AGIQA-3K を構築している。
このデータベース上でベンチマーク実験を行い、現在の画像品質評価(IQA)モデルと人間の知覚との整合性を評価する。
我々は、AGIQA-3Kの微粒な主観的スコアが、その後のAGI品質モデルにヒトの主観的知覚機構に適合するよう促すと信じている。
論文 参考訳(メタデータ) (2023-06-07T18:28:21Z) - Read Pointer Meters in complex environments based on a Human-like
Alignment and Recognition Algorithm [16.823681016882315]
これらの問題を克服するための人間ライクなアライメントと認識アルゴリズムを提案する。
STM(Spatial Transformed Module)は,画像のフロントビューを自己自律的に取得するために提案される。
VAM(Value Acquisition Module)は、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために提案される。
論文 参考訳(メタデータ) (2023-02-28T05:37:04Z) - MSTRIQ: No Reference Image Quality Assessment Based on Swin Transformer
with Multi-Stage Fusion [8.338999282303755]
本稿では,Swin Transformerに基づく新しいアルゴリズムを提案する。
ローカル機能とグローバル機能の両方から情報を集約して、品質をより正確に予測する。
NTIRE 2022 Perceptual Image Quality Assessment Challengeのノーレファレンストラックで2位。
論文 参考訳(メタデータ) (2022-05-20T11:34:35Z) - Multi-Scale Features and Parallel Transformers Based Image Quality
Assessment [0.6554326244334866]
変換器ネットワークとマルチスケール特徴抽出を用いた画像品質評価のための新しいアーキテクチャを提案する。
PIPALデータセットを含む各種データセットに対する実験により,提案手法が既存のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-04-20T20:38:23Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。