論文の概要: Quality Prediction of AI Generated Images and Videos: Emerging Trends and Opportunities
- arxiv url: http://arxiv.org/abs/2410.08534v2
- Date: Sun, 20 Oct 2024 00:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 23:24:44.926054
- Title: Quality Prediction of AI Generated Images and Videos: Emerging Trends and Opportunities
- Title(参考訳): AI生成画像とビデオの品質予測 : 新たなトレンドと機会
- Authors: Abhijay Ghildyal, Yuanhan Chen, Saman Zadtootaghaj, Nabajeet Barman, Alan C. Bovik,
- Abstract要約: AIが生成し、拡張されたコンテンツは、視覚的に正確で、意図された使用に固執し、高い視覚的品質を維持する必要がある。
AI生成および強化されたコンテンツの視覚的“品質”を監視し制御するひとつの方法は、画像品質アセスメント(IQA)とビデオ品質アセスメント(VQA)モデルをデプロイすることである。
本稿では,AIが生成・拡張した画像・映像コンテンツによる現状の問題点と可能性について検討する。
- 参考スコア(独自算出の注目度): 32.03360188710995
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The advent of AI has influenced many aspects of human life, from self-driving cars and intelligent chatbots to text-based image and video generation models capable of creating realistic images and videos based on user prompts (text-to-image, image-to-image, and image-to-video). AI-based methods for image and video super resolution, video frame interpolation, denoising, and compression have already gathered significant attention and interest in the industry and some solutions are already being implemented in real-world products and services. However, to achieve widespread integration and acceptance, AI-generated and enhanced content must be visually accurate, adhere to intended use, and maintain high visual quality to avoid degrading the end user's quality of experience (QoE). One way to monitor and control the visual "quality" of AI-generated and -enhanced content is by deploying Image Quality Assessment (IQA) and Video Quality Assessment (VQA) models. However, most existing IQA and VQA models measure visual fidelity in terms of "reconstruction" quality against a pristine reference content and were not designed to assess the quality of "generative" artifacts. To address this, newer metrics and models have recently been proposed, but their performance evaluation and overall efficacy have been limited by datasets that were too small or otherwise lack representative content and/or distortion capacity; and by performance measures that can accurately report the success of an IQA/VQA model for "GenAI". This paper examines the current shortcomings and possibilities presented by AI-generated and enhanced image and video content, with a particular focus on end-user perceived quality. Finally, we discuss open questions and make recommendations for future work on the "GenAI" quality assessment problems, towards further progressing on this interesting and relevant field of research.
- Abstract(参考訳): AIの出現は、自動運転車やインテリジェントなチャットボットから、ユーザープロンプト(テキスト・ツー・イメージ、画像・トゥ・ビデオ)に基づいたリアルなイメージとビデオを作成することができるテキストベースの画像およびビデオ生成モデルに至るまで、人間の生活の多くの側面に影響を与えてきた。
画像とビデオの超解像、ビデオフレームの補間、デノイング、圧縮のためのAIベースの手法は、すでに業界に対して大きな関心と関心を集めており、いくつかのソリューションはすでに現実世界の製品やサービスで実装されている。
しかし、幅広い統合と受け入れを達成するためには、AI生成および強化されたコンテンツは視覚的に正確であり、意図された使用に固執し、エンドユーザの体験品質(QoE)の劣化を避けるために、高い視覚的品質を維持する必要がある。
AI生成および強化されたコンテンツの視覚的“品質”を監視し制御するひとつの方法は、画像品質アセスメント(IQA)とビデオ品質アセスメント(VQA)モデルをデプロイすることである。
しかしながら、既存のIQAおよびVQAモデルは、プリスタン参照コンテンツに対する「再構成」品質の観点から視覚的忠実度を測定しており、「生成的」アーティファクトの品質を評価するように設計されていない。
これを解決するために、新しいメトリクスとモデルが最近提案されているが、そのパフォーマンス評価と全体的な有効性は、代表的コンテンツや/または歪み容量が不足しているデータセットや、"GenAI"のIQA/VQAモデルの成功を正確に報告できるパフォーマンス指標によって制限されている。
本稿では,AIによって生成・強化された画像・映像コンテンツがもたらす現状の問題点と可能性について考察する。
最後に、オープンな質問を議論し、「GenAI」品質評価問題に関する今後の課題について、この興味深く関連する研究分野のさらなる進展に向けて提言する。
関連論文リスト
- Visual Verity in AI-Generated Imagery: Computational Metrics and Human-Centric Analysis [0.0]
我々は,フォトリアリズム,画質,テキスト画像のアライメントを計測するVisual Verityというアンケートを導入,検証した。
また, 色調, 彩度, 明度において, カメラ生成画像が低い値を示した。
その結果,人間の視覚的知覚をよりよく捉えるために,計算メトリクスの精細化の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-08-22T23:29:07Z) - Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。
我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。
本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment [20.851102845794244]
画像品質評価(IQA)の開発には品質評価属性に関する高レベル知識の蒸留が不可欠である
自己監督・視線監督画像QUality Evaluator (SLIQUE) と呼ばれる新しいブラインドIQA(BIQA)モデルを提案する。
SLIQUEは、画像意味内容、歪み特性およびIQAの外観特性に関する高度な知識を得るための、視覚言語と視覚コントラスト表現学習フレームワークである。
論文 参考訳(メタデータ) (2024-06-14T09:18:28Z) - Understanding and Evaluating Human Preferences for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文 参考訳(メタデータ) (2023-07-18T16:33:30Z) - Helping Visually Impaired People Take Better Quality Pictures [52.03016269364854]
我々は、視覚障害者が共通の技術的歪みの発生を最小限に抑えるためのツールを開発する。
また、ユーザによる品質問題の緩和を支援する、プロトタイプのフィードバックシステムも作成しています。
論文 参考訳(メタデータ) (2023-05-14T04:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。