論文の概要: Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation
- arxiv url: http://arxiv.org/abs/2307.09416v2
- Date: Wed, 19 Jul 2023 08:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 10:58:12.073933
- Title: Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation
- Title(参考訳): バイス!
画像生成評価における人間の認知行動の模倣
- Authors: Federico Betti, Jacopo Staiano, Lorenzo Baraldi, Lorenzo Baraldi, Rita
Cucchiara, Nicu Sebe
- Abstract要約: 生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
- 参考スコア(独自算出の注目度): 96.74302670358145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in Image Generation has recently made significant progress,
particularly boosted by the introduction of Vision-Language models which are
able to produce high-quality visual content based on textual inputs. Despite
ongoing advancements in terms of generation quality and realism, no methodical
frameworks have been defined yet to quantitatively measure the quality of the
generated content and the adherence with the prompted requests: so far, only
human-based evaluations have been adopted for quality satisfaction and for
comparing different generative methods. We introduce a novel automated method
for Visual Concept Evaluation (ViCE), i.e. to assess consistency between a
generated/edited image and the corresponding prompt/instructions, with a
process inspired by the human cognitive behaviour. ViCE combines the strengths
of Large Language Models (LLMs) and Visual Question Answering (VQA) into a
unified pipeline, aiming to replicate the human cognitive process in quality
assessment. This method outlines visual concepts, formulates image-specific
verification questions, utilizes the Q&A system to investigate the image, and
scores the combined outcome. Although this brave new hypothesis of mimicking
humans in the image evaluation process is in its preliminary assessment stage,
results are promising and open the door to a new form of automatic evaluation
which could have significant impact as the image generation or the image target
editing tasks become more and more sophisticated.
- Abstract(参考訳): 画像生成の研究は、特にテキスト入力に基づいて高品質な視覚コンテンツを生成できるビジョンランゲージモデルの導入により、近年大きな進歩を遂げている。
世代品質とリアリズムの進歩にもかかわらず、生成したコンテンツの品質と要求の順守を定量的に測定する方法論的な枠組みはまだ定義されておらず、今のところ、品質満足度と異なる生成方法の比較のために人間による評価のみが採用されている。
本稿では,人間の認知行動に触発されたプロセスを用いて,生成/編集画像と対応するプロンプト/インストラクションとの一貫性を評価する新しい視覚概念評価手法(vice)を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
本手法は,視覚概念を概説し,画像固有の検証質問を定式化し,Q&Aシステムを用いて画像を調査し,組み合わせた結果を評価する。
画像評価過程における人間を模倣するこの勇敢な新たな仮説は、その予備評価段階にあるが、画像生成や画像ターゲット編集タスクがますます洗練されていくにつれ、大きな影響を与える可能性のある新しい形式の自動評価への道を開くことができる。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Quality Prediction of AI Generated Images and Videos: Emerging Trends and Opportunities [32.03360188710995]
AIが生成し、拡張されたコンテンツは、視覚的に正確で、意図された使用に固執し、高い視覚的品質を維持する必要がある。
AI生成および強化されたコンテンツの視覚的“品質”を監視し制御するひとつの方法は、画像品質アセスメント(IQA)とビデオ品質アセスメント(VQA)モデルをデプロイすることである。
本稿では,AIが生成・拡張した画像・映像コンテンツによる現状の問題点と可能性について検討する。
論文 参考訳(メタデータ) (2024-10-11T05:08:44Z) - Visual Verity in AI-Generated Imagery: Computational Metrics and Human-Centric Analysis [0.0]
我々は,フォトリアリズム,画質,テキスト画像のアライメントを計測するVisual Verityというアンケートを導入,検証した。
また, 色調, 彩度, 明度において, カメラ生成画像が低い値を示した。
その結果,人間の視覚的知覚をよりよく捉えるために,計算メトリクスの精細化の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-08-22T23:29:07Z) - GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文 参考訳(メタデータ) (2024-06-19T18:00:07Z) - Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment [20.851102845794244]
画像品質評価(IQA)の開発には品質評価属性に関する高レベル知識の蒸留が不可欠である
自己監督・視線監督画像QUality Evaluator (SLIQUE) と呼ばれる新しいブラインドIQA(BIQA)モデルを提案する。
SLIQUEは、画像意味内容、歪み特性およびIQAの外観特性に関する高度な知識を得るための、視覚言語と視覚コントラスト表現学習フレームワークである。
論文 参考訳(メタデータ) (2024-06-14T09:18:28Z) - Understanding and Evaluating Human Preferences for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。