論文の概要: AAPMT: AGI Assessment Through Prompt and Metric Transformer
- arxiv url: http://arxiv.org/abs/2403.19101v1
- Date: Thu, 28 Mar 2024 02:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:32:29.570276
- Title: AAPMT: AGI Assessment Through Prompt and Metric Transformer
- Title(参考訳): AAPMT: PromptとMetric TransformerによるAGIアセスメント
- Authors: Benhao Huang,
- Abstract要約: 本研究では,知覚品質,信頼度,テキストと画像の対応性などのパラメータに着目したモデルを開発する。
Metric Transformerは、様々なAGI品質指標間の複雑な関係にインスパイアされた、新しい構造である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The emergence of text-to-image models marks a significant milestone in the evolution of AI-generated images (AGIs), expanding their use in diverse domains like design, entertainment, and more. Despite these breakthroughs, the quality of AGIs often remains suboptimal, highlighting the need for effective evaluation methods. These methods are crucial for assessing the quality of images relative to their textual descriptions, and they must accurately mirror human perception. Substantial progress has been achieved in this domain, with innovative techniques such as BLIP and DBCNN contributing significantly. However, recent studies, including AGIQA-3K, reveal a notable discrepancy between current methods and state-of-the-art (SOTA) standards. This gap emphasizes the necessity for a more sophisticated and precise evaluation metric. In response, our objective is to develop a model that could give ratings for metrics, which focuses on parameters like perceptual quality, authenticity, and the correspondence between text and image, that more closely aligns with human perception. In our paper, we introduce a range of effective methods, including prompt designs and the Metric Transformer. The Metric Transformer is a novel structure inspired by the complex interrelationships among various AGI quality metrics. The code is available at https://github.com/huskydoge/CS3324-Digital-Image-Processing/tree/main/Assignment1
- Abstract(参考訳): テキスト・ツー・イメージ・モデルの出現は、AI生成画像(AGI)の進化における重要なマイルストーンであり、デザインやエンターテイメントなど、さまざまな領域での利用を拡大している。
これらのブレークスルーにもかかわらず、AGIの品質は、しばしば準最適であり、効果的な評価方法の必要性を強調している。
これらの手法は, 画像の質をテキストによる記述と比較して評価するために重要であり, 人間の知覚を正確に反映する必要がある。
この領域では、BLIPやDBCNNといった革新的な技術によって、実質的な進歩が達成されている。
しかし、AGIQA-3Kを含む最近の研究は、現在の方法とSOTA(State-of-the-art)標準との顕著な相違を明らかにしている。
このギャップは、より高度で正確な評価基準の必要性を強調する。
本研究の目的は, 知覚品質, 信頼度, テキストと画像の対応など, 人間の知覚とより密接に一致したパラメータに焦点をあてた, メトリクスのレーティングを評価できるモデルを開発することである。
本稿では,プロンプト設計やMetric Transformerなど,様々な効果的な手法を紹介する。
Metric Transformerは、様々なAGI品質指標の複雑な相互関係にインスパイアされた、新しい構造である。
コードはhttps://github.com/huskydoge/CS3324-Digital-Image-Processing/tree/main/Assignment1で公開されている。
関連論文リスト
- ANID: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance [19.760989919485894]
AI-Natural Image Discrepancy Evaluationベンチマークを導入し、重要な問題に対処する。
大規模マルチモーダルデータセットであるDNAI(Distinguishing Natural and AI- generated Images)データセットを構築した。
粒度評価フレームワークは,5つの重要な領域にわたるDNAIデータセットを包括的に評価する。
論文 参考訳(メタデータ) (2024-12-23T15:08:08Z) - AI-generated Image Quality Assessment in Visual Communication [72.11144790293086]
AIGI-VCは、視覚コミュニケーションにおけるAI生成画像の品質評価データベースである。
データセットは、14の広告トピックと8つの感情タイプにまたがる2500のイメージで構成されている。
粗い人間の嗜好アノテーションときめ細かい嗜好記述を提供し、選好予測、解釈、推論におけるIQAメソッドの能力をベンチマークする。
論文 参考訳(メタデータ) (2024-12-20T08:47:07Z) - Enhancing Content Representation for AR Image Quality Assessment Using Knowledge Distillation [3.020452010930984]
本稿では,拡張現実シナリオの画質評価に特化して設計された,深層学習に基づく客観的指標を提案する。
1)参照画像から顕著な特徴を抽出するための自己教師付き事前学習型視覚変換器の微調整,(2)計算シフト表現による歪みの定量化,(3)知覚品質の特徴を捉えるための横断的アテンションベースのデコーダの活用,(4)正規化技術の統合とラベルスムーズ化によるオーバーフィッティング問題への対処,の4つの重要なステップを含む。
論文 参考訳(メタデータ) (2024-12-08T17:25:30Z) - AI-Generated Image Quality Assessment Based on Task-Specific Prompt and Multi-Granularity Similarity [62.00987205438436]
本稿では,TSP-MGSというAIGIの品質評価手法を提案する。
タスク固有のプロンプトを設計し、AIGIとプロンプトの多粒度類似度を測定する。
一般的に使用されるAGIQA-1KとAGIQA-3Kベンチマークの実験は、提案されたTSP-MGSの優位性を示している。
論文 参考訳(メタデータ) (2024-11-25T04:47:53Z) - Visual Verity in AI-Generated Imagery: Computational Metrics and Human-Centric Analysis [0.0]
我々は,フォトリアリズム,画質,テキスト画像のアライメントを計測するVisual Verityというアンケートを導入,検証した。
また, 色調, 彩度, 明度において, カメラ生成画像が低い値を示した。
その結果,人間の視覚的知覚をよりよく捉えるために,計算メトリクスの精細化の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-08-22T23:29:07Z) - Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment [13.998206803073481]
本稿では,新しい画像品質評価ネットワークであるAMFF-Netを提案する。
AMFF-Netは画像のスケールアップとスケールダウンを行い、入力としてスケールされた画像とオリジナルサイズの画像を取り込み、マルチスケールの特徴を得る。
我々は3つのAGI品質評価データベースについて広範な実験を行い、実験の結果、AMFF-Netは9つの最先端の盲点IQA法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-04-23T16:02:33Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文 参考訳(メタデータ) (2023-07-18T16:33:30Z) - AGIQA-3K: An Open Database for AI-Generated Image Quality Assessment [62.8834581626703]
我々はこれまでに最も包括的な主観的品質データベース AGIQA-3K を構築している。
このデータベース上でベンチマーク実験を行い、現在の画像品質評価(IQA)モデルと人間の知覚との整合性を評価する。
我々は、AGIQA-3Kの微粒な主観的スコアが、その後のAGI品質モデルにヒトの主観的知覚機構に適合するよう促すと信じている。
論文 参考訳(メタデータ) (2023-06-07T18:28:21Z) - Read Pointer Meters in complex environments based on a Human-like
Alignment and Recognition Algorithm [16.823681016882315]
これらの問題を克服するための人間ライクなアライメントと認識アルゴリズムを提案する。
STM(Spatial Transformed Module)は,画像のフロントビューを自己自律的に取得するために提案される。
VAM(Value Acquisition Module)は、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために提案される。
論文 参考訳(メタデータ) (2023-02-28T05:37:04Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。