Fugu-MT 論文翻訳(概要): Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation Evaluation

論文の概要: Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation Evaluation

arxiv url: http://arxiv.org/abs/2307.09416v2
Date: Wed, 19 Jul 2023 08:27:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-20 10:58:12.073933
Title: Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation Evaluation
Title（参考訳）: バイス! 画像生成評価における人間の認知行動の模倣
Authors: Federico Betti, Jacopo Staiano, Lorenzo Baraldi, Lorenzo Baraldi, Rita Cucchiara, Nicu Sebe
Abstract要約: 生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。 ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
参考スコア（独自算出の注目度）: 96.74302670358145
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Research in Image Generation has recently made significant progress, particularly boosted by the introduction of Vision-Language models which are able to produce high-quality visual content based on textual inputs. Despite ongoing advancements in terms of generation quality and realism, no methodical frameworks have been defined yet to quantitatively measure the quality of the generated content and the adherence with the prompted requests: so far, only human-based evaluations have been adopted for quality satisfaction and for comparing different generative methods. We introduce a novel automated method for Visual Concept Evaluation (ViCE), i.e. to assess consistency between a generated/edited image and the corresponding prompt/instructions, with a process inspired by the human cognitive behaviour. ViCE combines the strengths of Large Language Models (LLMs) and Visual Question Answering (VQA) into a unified pipeline, aiming to replicate the human cognitive process in quality assessment. This method outlines visual concepts, formulates image-specific verification questions, utilizes the Q&A system to investigate the image, and scores the combined outcome. Although this brave new hypothesis of mimicking humans in the image evaluation process is in its preliminary assessment stage, results are promising and open the door to a new form of automatic evaluation which could have significant impact as the image generation or the image target editing tasks become more and more sophisticated.
Abstract（参考訳）: 画像生成の研究は、特にテキスト入力に基づいて高品質な視覚コンテンツを生成できるビジョンランゲージモデルの導入により、近年大きな進歩を遂げている。世代品質とリアリズムの進歩にもかかわらず、生成したコンテンツの品質と要求の順守を定量的に測定する方法論的な枠組みはまだ定義されておらず、今のところ、品質満足度と異なる生成方法の比較のために人間による評価のみが採用されている。本稿では,人間の認知行動に触発されたプロセスを用いて,生成/編集画像と対応するプロンプト/インストラクションとの一貫性を評価する新しい視覚概念評価手法(vice)を提案する。 ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。本手法は,視覚概念を概説し,画像固有の検証質問を定式化し,Q&Aシステムを用いて画像を調査し,組み合わせた結果を評価する。画像評価過程における人間を模倣するこの勇敢な新たな仮説は、その予備評価段階にあるが、画像生成や画像ターゲット編集タスクがますます洗練されていくにつれ、大きな影響を与える可能性のある新しい形式の自動評価への道を開くことができる。

関連論文リスト

A Picture is Worth a Thousand Prompts? Efficacy of Iterative Human-Driven Prompt Refinement in Image Regeneration Tasks [1.8563642867160601]
AI生成画像の作成はしばしば、望ましい視覚的な結果を達成するために、入力プロンプトを反復的に精細化する。この研究は、AIを用いた画像再生という比較的未解明の概念に焦点を当てている。本稿では,反復的プロンプトリファインメントが,再生画像の目標に対する類似性にどのように影響するかを,構造化されたユーザスタディで評価する。
論文参考訳（メタデータ） (2025-04-29T01:21:16Z)
Scene Perceived Image Perceptual Score (SPIPS): combining global and local perception for image quality assessment [0.0]
深層学習と人間の知覚のギャップを埋める新しいIQA手法を提案する。我々のモデルは、深い特徴を高レベルの意味情報と低レベルの知覚の詳細に分解し、それぞれのストリームを別々に扱う。このハイブリッド設計により、グローバルコンテキストと複雑な画像の詳細の両方を評価し、人間の視覚過程をより良く反映することができる。
論文参考訳（メタデータ） (2025-04-24T04:06:07Z)
Embodied Image Quality Assessment for Robotic Intelligence [36.80460733311791]
まず,画像品質評価(EIQA)フレームワークを提案する。我々は,ロボットの下流作業に基づく入力画像の評価基準を確立する。実験により、エンボディ画像の品質評価は人間と異なることが示された。
論文参考訳（メタデータ） (2024-12-25T04:29:22Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
Quality Prediction of AI Generated Images and Videos: Emerging Trends and Opportunities [32.03360188710995]
AIが生成し、拡張されたコンテンツは、視覚的に正確で、意図された使用に固執し、高い視覚的品質を維持する必要がある。 AI生成および強化されたコンテンツの視覚的“品質”を監視し制御するひとつの方法は、画像品質アセスメント(IQA)とビデオ品質アセスメント(VQA)モデルをデプロイすることである。本稿では,AIが生成・拡張した画像・映像コンテンツによる現状の問題点と可能性について検討する。
論文参考訳（メタデータ） (2024-10-11T05:08:44Z)
Visual Verity in AI-Generated Imagery: Computational Metrics and Human-Centric Analysis [0.0]
我々は,フォトリアリズム,画質,テキスト画像のアライメントを計測するVisual Verityというアンケートを導入,検証した。また, 色調, 彩度, 明度において, カメラ生成画像が低い値を示した。その結果,人間の視覚的知覚をよりよく捉えるために,計算メトリクスの精細化の必要性が浮き彫りになった。
論文参考訳（メタデータ） (2024-08-22T23:29:07Z)
GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。 VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文参考訳（メタデータ） (2024-06-19T18:00:07Z)
Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment [20.851102845794244]
画像品質評価(IQA)の開発には品質評価属性に関する高レベル知識の蒸留が不可欠である自己監督・視線監督画像QUality Evaluator (SLIQUE) と呼ばれる新しいブラインドIQA(BIQA)モデルを提案する。 SLIQUEは、画像意味内容、歪み特性およびIQAの外観特性に関する高度な知識を得るための、視覚言語と視覚コントラスト表現学習フレームワークである。
論文参考訳（メタデータ） (2024-06-14T09:18:28Z)
Understanding and Evaluating Human Preferences for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文参考訳（メタデータ） (2024-05-12T17:45:11Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文参考訳（メタデータ） (2022-07-25T17:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。