Fugu-MT 論文翻訳(概要): AAPMT: AGI Assessment Through Prompt and Metric Transformer

論文の概要: AAPMT: AGI Assessment Through Prompt and Metric Transformer

arxiv url: http://arxiv.org/abs/2403.19101v1
Date: Thu, 28 Mar 2024 02:31:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 17:32:29.570276
Title: AAPMT: AGI Assessment Through Prompt and Metric Transformer
Title（参考訳）: AAPMT: PromptとMetric TransformerによるAGIアセスメント
Authors: Benhao Huang,
Abstract要約: 本研究では,知覚品質,信頼度,テキストと画像の対応性などのパラメータに着目したモデルを開発する。 Metric Transformerは、様々なAGI品質指標間の複雑な関係にインスパイアされた、新しい構造である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The emergence of text-to-image models marks a significant milestone in the evolution of AI-generated images (AGIs), expanding their use in diverse domains like design, entertainment, and more. Despite these breakthroughs, the quality of AGIs often remains suboptimal, highlighting the need for effective evaluation methods. These methods are crucial for assessing the quality of images relative to their textual descriptions, and they must accurately mirror human perception. Substantial progress has been achieved in this domain, with innovative techniques such as BLIP and DBCNN contributing significantly. However, recent studies, including AGIQA-3K, reveal a notable discrepancy between current methods and state-of-the-art (SOTA) standards. This gap emphasizes the necessity for a more sophisticated and precise evaluation metric. In response, our objective is to develop a model that could give ratings for metrics, which focuses on parameters like perceptual quality, authenticity, and the correspondence between text and image, that more closely aligns with human perception. In our paper, we introduce a range of effective methods, including prompt designs and the Metric Transformer. The Metric Transformer is a novel structure inspired by the complex interrelationships among various AGI quality metrics. The code is available at https://github.com/huskydoge/CS3324-Digital-Image-Processing/tree/main/Assignment1
Abstract（参考訳）: テキスト・ツー・イメージ・モデルの出現は、AI生成画像(AGI)の進化における重要なマイルストーンであり、デザインやエンターテイメントなど、さまざまな領域での利用を拡大している。これらのブレークスルーにもかかわらず、AGIの品質は、しばしば準最適であり、効果的な評価方法の必要性を強調している。これらの手法は, 画像の質をテキストによる記述と比較して評価するために重要であり, 人間の知覚を正確に反映する必要がある。この領域では、BLIPやDBCNNといった革新的な技術によって、実質的な進歩が達成されている。しかし、AGIQA-3Kを含む最近の研究は、現在の方法とSOTA(State-of-the-art)標準との顕著な相違を明らかにしている。このギャップは、より高度で正確な評価基準の必要性を強調する。本研究の目的は, 知覚品質, 信頼度, テキストと画像の対応など, 人間の知覚とより密接に一致したパラメータに焦点をあてた, メトリクスのレーティングを評価できるモデルを開発することである。本稿では,プロンプト設計やMetric Transformerなど,様々な効果的な手法を紹介する。 Metric Transformerは、様々なAGI品質指標の複雑な相互関係にインスパイアされた、新しい構造である。コードはhttps://github.com/huskydoge/CS3324-Digital-Image-Processing/tree/main/Assignment1で公開されている。

関連論文リスト

Text-Visual Semantic Constrained AI-Generated Image Quality Assessment [47.575342788480505]
本稿では,AI生成画像におけるテキスト画像の一貫性と知覚歪みの両方を包括的に評価する統合フレームワークを提案する。このアプローチでは、複数のモデルから重要な機能を統合し、2つのコアモジュールを導入することで、上記の課題に取り組む。複数のベンチマークデータセットで実施されたテストは、SC-AGIQAが既存の最先端メソッドより優れていることを示している。
論文参考訳（メタデータ） (2025-07-14T16:21:05Z)
Scene Perceived Image Perceptual Score (SPIPS): combining global and local perception for image quality assessment [0.0]
深層学習と人間の知覚のギャップを埋める新しいIQA手法を提案する。我々のモデルは、深い特徴を高レベルの意味情報と低レベルの知覚の詳細に分解し、それぞれのストリームを別々に扱う。このハイブリッド設計により、グローバルコンテキストと複雑な画像の詳細の両方を評価し、人間の視覚過程をより良く反映することができる。
論文参考訳（メタデータ） (2025-04-24T04:06:07Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AGIの品質評価のための包括的なフレームワークである。中間画像記述を生成する構造付きマルチラウンド評価機構を含む。複数のベンチマークデータセットで実施された実験は、M3-AGIQAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
Enhancing Content Representation for AR Image Quality Assessment Using Knowledge Distillation [3.020452010930984]
本稿では,拡張現実シナリオの画質評価に特化して設計された,深層学習に基づく客観的指標を提案する。 1)参照画像から顕著な特徴を抽出するための自己教師付き事前学習型視覚変換器の微調整,(2)計算シフト表現による歪みの定量化,(3)知覚品質の特徴を捉えるための横断的アテンションベースのデコーダの活用,(4)正規化技術の統合とラベルスムーズ化によるオーバーフィッティング問題への対処,の4つの重要なステップを含む。
論文参考訳（メタデータ） (2024-12-08T17:25:30Z)
AI-Generated Image Quality Assessment Based on Task-Specific Prompt and Multi-Granularity Similarity [62.00987205438436]
本稿では,TSP-MGSというAIGIの品質評価手法を提案する。タスク固有のプロンプトを設計し、AIGIとプロンプトの多粒度類似度を測定する。一般的に使用されるAGIQA-1KとAGIQA-3Kベンチマークの実験は、提案されたTSP-MGSの優位性を示している。
論文参考訳（メタデータ） (2024-11-25T04:47:53Z)
Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors [62.63467652611788]
実画像27,600枚、223,400枚、AI拡張画像1,472,700枚を含むSEMI-TRUTHSを紹介する。それぞれの画像には、検出器のロバスト性の標準化と目標評価のためのメタデータが添付されている。以上の結果から,現状の検出器は摂動の種類や程度,データ分布,拡張方法に様々な感度を示すことが示唆された。
論文参考訳（メタデータ） (2024-11-12T01:17:27Z)
Visual Verity in AI-Generated Imagery: Computational Metrics and Human-Centric Analysis [0.0]
我々は,フォトリアリズム,画質,テキスト画像のアライメントを計測するVisual Verityというアンケートを導入,検証した。また, 色調, 彩度, 明度において, カメラ生成画像が低い値を示した。その結果,人間の視覚的知覚をよりよく捉えるために,計算メトリクスの精細化の必要性が浮き彫りになった。
論文参考訳（メタデータ） (2024-08-22T23:29:07Z)
Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment [13.998206803073481]
本稿では,新しい画像品質評価ネットワークであるAMFF-Netを提案する。 AMFF-Netは画像のスケールアップとスケールダウンを行い、入力としてスケールされた画像とオリジナルサイズの画像を取り込み、マルチスケールの特徴を得る。我々は3つのAGI品質評価データベースについて広範な実験を行い、実験の結果、AMFF-Netは9つの最先端の盲点IQA法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-04-23T16:02:33Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。 ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文参考訳（メタデータ） (2023-07-18T16:33:30Z)
AGIQA-3K: An Open Database for AI-Generated Image Quality Assessment [62.8834581626703]
我々はこれまでに最も包括的な主観的品質データベース AGIQA-3K を構築している。このデータベース上でベンチマーク実験を行い、現在の画像品質評価(IQA)モデルと人間の知覚との整合性を評価する。我々は、AGIQA-3Kの微粒な主観的スコアが、その後のAGI品質モデルにヒトの主観的知覚機構に適合するよう促すと信じている。
論文参考訳（メタデータ） (2023-06-07T18:28:21Z)
Read Pointer Meters in complex environments based on a Human-like Alignment and Recognition Algorithm [16.823681016882315]
これらの問題を克服するための人間ライクなアライメントと認識アルゴリズムを提案する。 STM(Spatial Transformed Module)は,画像のフロントビューを自己自律的に取得するために提案される。 VAM(Value Acquisition Module)は、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために提案される。
論文参考訳（メタデータ） (2023-02-28T05:37:04Z)
MSTRIQ: No Reference Image Quality Assessment Based on Swin Transformer with Multi-Stage Fusion [8.338999282303755]
本稿では,Swin Transformerに基づく新しいアルゴリズムを提案する。ローカル機能とグローバル機能の両方から情報を集約して、品質をより正確に予測する。 NTIRE 2022 Perceptual Image Quality Assessment Challengeのノーレファレンストラックで2位。
論文参考訳（メタデータ） (2022-05-20T11:34:35Z)
Multi-Scale Features and Parallel Transformers Based Image Quality Assessment [0.6554326244334866]
変換器ネットワークとマルチスケール特徴抽出を用いた画像品質評価のための新しいアーキテクチャを提案する。 PIPALデータセットを含む各種データセットに対する実験により,提案手法が既存のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-04-20T20:38:23Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。