論文の概要: PCQA: A Strong Baseline for AIGC Quality Assessment Based on Prompt Condition
- arxiv url: http://arxiv.org/abs/2404.13299v1
- Date: Sat, 20 Apr 2024 07:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:39:25.945574
- Title: PCQA: A Strong Baseline for AIGC Quality Assessment Based on Prompt Condition
- Title(参考訳): PCQA: プロンプト条件に基づくAIGC品質評価のための強力なベースライン
- Authors: Xi Fang, Weigang Wang, Xiaoxin Lv, Jun Yan,
- Abstract要約: 本研究では,効果的なAIGC品質評価(QA)フレームワークを提案する。
まず,マルチソースCLIP(Contrastive Language- Image Pre-Training)テキストエンコーダを用いたハイブリッドプロンプト符号化手法を提案する。
第2に,適応したプロンプトと視覚機能を効果的にブレンドするアンサンブルベースの機能ミキサーモジュールを提案する。
- 参考スコア(独自算出の注目度): 4.125007507808684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of Large Language Models (LLM) and Diffusion Models brings the boom of Artificial Intelligence Generated Content (AIGC). It is essential to build an effective quality assessment framework to provide a quantifiable evaluation of different images or videos based on the AIGC technologies. The content generated by AIGC methods is driven by the crafted prompts. Therefore, it is intuitive that the prompts can also serve as the foundation of the AIGC quality assessment. This study proposes an effective AIGC quality assessment (QA) framework. First, we propose a hybrid prompt encoding method based on a dual-source CLIP (Contrastive Language-Image Pre-Training) text encoder to understand and respond to the prompt conditions. Second, we propose an ensemble-based feature mixer module to effectively blend the adapted prompt and vision features. The empirical study practices in two datasets: AIGIQA-20K (AI-Generated Image Quality Assessment database) and T2VQA-DB (Text-to-Video Quality Assessment DataBase), which validates the effectiveness of our proposed method: Prompt Condition Quality Assessment (PCQA). Our proposed simple and feasible framework may promote research development in the multimodal generation field.
- Abstract(参考訳): 大規模言語モデル(LLM)と拡散モデル(Diffusion Models)の開発は、人工知能生成コンテンツ(AIGC)のブームをもたらす。
AIGC技術に基づいて、異なる画像やビデオの定量評価を提供するために、効果的な品質評価フレームワークを構築することが不可欠である。
AIGCメソッドによって生成されたコンテンツは、人工的なプロンプトによって駆動される。
したがって,AIGCの品質評価の基礎として,このプロンプトが有効であることは直感的である。
本研究では,効果的なAIGC品質評価(QA)フレームワークを提案する。
まず,複数ソースCLIP(Contrastive Language- Image Pre-Training)テキストエンコーダをベースとしたハイブリッドプロンプト符号化手法を提案する。
第2に,適応したプロンプトと視覚機能を効果的にブレンドするアンサンブルベースの機能ミキサーモジュールを提案する。
AIGIQA-20K (AI-Generated Image Quality Assessment database) と T2VQA-DB (Text-to-Video Quality Assessment DataBase) の2つのデータセットにおける実証的研究を行い,提案手法の有効性を検証した。
提案するシンプルで実現可能なフレームワークは,マルチモーダル・ジェネレーション分野の研究開発を促進する可能性がある。
関連論文リスト
- Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。
私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文 参考訳(メタデータ) (2024-05-02T15:03:41Z) - PKU-AIGIQA-4K: A Perceptual Quality Assessment Database for Both Text-to-Image and Image-to-Image AI-Generated Images [1.5265677582796984]
我々はPKU-AIGIQA-4Kという名前のテキスト・ツー・イメージAIGIとイメージ・ツー・イメージAIGIの両方を対象とした大規模な知覚品質評価データベースを構築した。
本研究では,非参照法NR-AIGCIQA,フル参照法FR-AIGCIQA,部分参照法PR-AIGCIQAを含む事前学習モデルに基づく3つの画像品質評価手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T03:57:43Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - PKU-I2IQA: An Image-to-Image Quality Assessment Database for AI
Generated Images [1.6031185986328562]
我々はPKU-I2IQAという人間の知覚に基づく画像から画像へのAIGCIQAデータベースを構築した。
本研究では,非参照画像品質評価法に基づくNR-AIGCIQAとフル参照画像品質評価法に基づくFR-AIGCIQAの2つのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T05:53:03Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language
Model Attribution [48.92960579675478]
我々は知識認識型言語モデル属性(KaLMA)の新しいタスクを定義する。
まず、構造化されていないテキストから知識グラフ(KG)へ属性ソースを拡張する。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Semantic Communications for Artificial Intelligence Generated Content
(AIGC) Toward Effective Content Creation [75.73229320559996]
本稿では,AIGCとSemComの統合の概念モデルを開発する。
AIGC技術を利用した新しいフレームワークが,意味情報のためのエンコーダおよびデコーダとして提案されている。
このフレームワークは、生成されたさまざまなタイプのコンテンツ、要求される品質、活用される意味情報に適応することができる。
論文 参考訳(メタデータ) (2023-08-09T13:17:21Z) - A Perceptual Quality Assessment Exploration for AIGC Images [39.72512063793346]
本稿では,AGIの品質評価における技術的問題,AIアーティファクト,不自然さ,不明瞭さ,美学などの主要な評価側面について論じる。
本稿では,拡散モデルから生成される1080個のAGIからなる最初の知覚的AGI品質評価データベース AGIQA-1K について述べる。
論文 参考訳(メタデータ) (2023-03-22T14:59:49Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。