論文の概要: Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation
- arxiv url: http://arxiv.org/abs/2307.09416v2
- Date: Wed, 19 Jul 2023 08:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 10:58:12.073933
- Title: Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation
- Title(参考訳): バイス!
画像生成評価における人間の認知行動の模倣
- Authors: Federico Betti, Jacopo Staiano, Lorenzo Baraldi, Lorenzo Baraldi, Rita
Cucchiara, Nicu Sebe
- Abstract要約: 生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
- 参考スコア(独自算出の注目度): 96.74302670358145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in Image Generation has recently made significant progress,
particularly boosted by the introduction of Vision-Language models which are
able to produce high-quality visual content based on textual inputs. Despite
ongoing advancements in terms of generation quality and realism, no methodical
frameworks have been defined yet to quantitatively measure the quality of the
generated content and the adherence with the prompted requests: so far, only
human-based evaluations have been adopted for quality satisfaction and for
comparing different generative methods. We introduce a novel automated method
for Visual Concept Evaluation (ViCE), i.e. to assess consistency between a
generated/edited image and the corresponding prompt/instructions, with a
process inspired by the human cognitive behaviour. ViCE combines the strengths
of Large Language Models (LLMs) and Visual Question Answering (VQA) into a
unified pipeline, aiming to replicate the human cognitive process in quality
assessment. This method outlines visual concepts, formulates image-specific
verification questions, utilizes the Q&A system to investigate the image, and
scores the combined outcome. Although this brave new hypothesis of mimicking
humans in the image evaluation process is in its preliminary assessment stage,
results are promising and open the door to a new form of automatic evaluation
which could have significant impact as the image generation or the image target
editing tasks become more and more sophisticated.
- Abstract(参考訳): 画像生成の研究は、特にテキスト入力に基づいて高品質な視覚コンテンツを生成できるビジョンランゲージモデルの導入により、近年大きな進歩を遂げている。
世代品質とリアリズムの進歩にもかかわらず、生成したコンテンツの品質と要求の順守を定量的に測定する方法論的な枠組みはまだ定義されておらず、今のところ、品質満足度と異なる生成方法の比較のために人間による評価のみが採用されている。
本稿では,人間の認知行動に触発されたプロセスを用いて,生成/編集画像と対応するプロンプト/インストラクションとの一貫性を評価する新しい視覚概念評価手法(vice)を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
本手法は,視覚概念を概説し,画像固有の検証質問を定式化し,Q&Aシステムを用いて画像を調査し,組み合わせた結果を評価する。
画像評価過程における人間を模倣するこの勇敢な新たな仮説は、その予備評価段階にあるが、画像生成や画像ターゲット編集タスクがますます洗練されていくにつれ、大きな影響を与える可能性のある新しい形式の自動評価への道を開くことができる。
関連論文リスト
- Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - Interpretable Image Quality Assessment via CLIP with Multiple
Antonym-Prompt Pairs [1.6317061277457001]
基準画像品質評価(NR-IQA)は、対応する原画像なしで画像の知覚品質を推定するタスクである。
本稿では,事前学習した視覚モデルの能力を生かした新しいゼロショットかつ解釈可能なNRIQA法を提案する。
実験の結果,提案手法は既存のゼロショットNR-IQA法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-08-24T21:37:00Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Conformer and Blind Noisy Students for Improved Image Quality Assessment [80.57006406834466]
知覚品質評価(IQA)のための学習ベースアプローチは、通常、知覚品質を正確に測定するために歪んだ画像と参照画像の両方を必要とする。
本研究では,変換器を用いた全参照IQAモデルの性能について検討する。
また,全教師モデルから盲人学生モデルへの半教師付き知識蒸留に基づくIQAの手法を提案する。
論文 参考訳(メタデータ) (2022-04-27T10:21:08Z) - Pixel-Level Face Image Quality Assessment for Explainable Face
Recognition [5.858033242850427]
認識のための顔画像における画素の有効性を決定する画素レベルの顔画像品質の概念を導入する。
本研究では,任意の顔認識ネットワークが与えられた場合,顔画像の画素レベルの品質を評価するためのトレーニング不要なアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-21T09:12:17Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - A survey on IQA [0.0]
本稿では,画像品質評価と映像品質評価の概念と指標について概説する。
本報告では, 画像品質評価手法について概説し, 深層学習に基づく非参照画像品質評価手法に着目した。
論文 参考訳(メタデータ) (2021-08-29T10:52:27Z) - Deep Image Synthesis from Intuitive User Input: A Review and
Perspectives [23.01321275304037]
ユーザは、テキスト、スケッチ、ストローク、グラフ、レイアウトなどの直感的な非画像入力を提供することが望ましい。
GAN(Generative Adversarial Network)やVAE(VAE)、フローベース手法といった深層生成モデルの最近の進歩は、より強力で汎用的な画像生成タスクを可能にしている。
本稿では,直感的なユーザ入力による画像合成,入力の汎用性の向上,画像生成手法,ベンチマークデータセット,評価指標について概説する。
論文 参考訳(メタデータ) (2021-07-09T06:31:47Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。