論文の概要: M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2502.15167v2
- Date: Wed, 04 Jun 2025 08:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:48.879916
- Title: M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment
- Title(参考訳): M3-AGIQA:マルチモーダル、マルチラウンド、マルチアスペクトAIによる画像品質評価
- Authors: Chuan Cui, Kejiang Chen, Zhihua Wei, Wen Shen, Weiming Zhang, Nenghai Yu,
- Abstract要約: M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
- 参考スコア(独自算出の注目度): 65.3860007085689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of AI-generated image (AIGI) models presents new challenges for evaluating image quality, particularly across three aspects: perceptual quality, prompt correspondence, and authenticity. To address these challenges, we introduce M3-AGIQA, a comprehensive framework that leverages Multimodal Large Language Models (MLLMs) to enable more human-aligned, holistic evaluation of AI-generated images across both visual and textual domains. Besides, our framework features a structured multi-round evaluation process, generating and analyzing intermediate image descriptions to provide deeper insight into these three aspects. By aligning model outputs more closely with human judgment, M3-AGIQA delivers robust and interpretable quality scores. Extensive experiments on multiple benchmarks demonstrate that our method achieves state-of-the-art performance on tested datasets and aspects, and exhibits strong generalizability in most cross-dataset settings. Code is available at https://github.com/strawhatboy/M3-AGIQA.
- Abstract(参考訳): AI生成画像(AIGI)モデルの急速な進歩は、画像品質、特に知覚品質、迅速な対応、信頼性の3つの側面において、画像品質を評価するための新たな課題を提示している。
これらの課題に対処するために、M3-AGIQAという、マルチモーダル大言語モデル(MLLM)を活用した包括的なフレームワークを導入し、視覚領域とテキスト領域の両方にわたるAI生成画像のより人間的かつ包括的評価を可能にする。
さらに、この3つの側面についてより深い洞察を提供するために、中間画像記述の生成と解析を行う、構造化されたマルチラウンド評価プロセスが特徴である。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
複数のベンチマーク実験により,提案手法はテスト対象のデータセットやアスペクト上での最先端性能を実現し,ほとんどのクロスデータセット設定において高い一般化性を示すことが示された。
コードはhttps://github.com/strawhatboy/M3-AGIQA.comで入手できる。
関連論文リスト
- CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment [46.55045595936298]
MLLM(Multimodal Large Language Models)は、視覚的理解と推論において大きな進歩を経験している。
画像品質評価(IQA)のための強力でフレキシブル、解釈可能、およびテキスト駆動モデルとして機能する可能性については、まだ明らかにされていない。
論文 参考訳(メタデータ) (2024-03-16T08:30:45Z) - Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models [28.194638379354252]
本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、マルチモーダルな大規模言語モデルを利用することで、詳細な言語ベースの人間のような画像品質の評価を可能にする。
これらの結果はマルチモーダルIQA法の研究の可能性を示している。
論文 参考訳(メタデータ) (2023-12-14T14:10:02Z) - Assessor360: Multi-sequence Network for Blind Omnidirectional Image
Quality Assessment [50.82681686110528]
Blind Omnidirectional Image Quality Assessment (BOIQA)は、全方位画像(ODI)の人間の知覚品質を客観的に評価することを目的としている。
ODIの品質評価は、既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。
Assessor360と呼ばれるBOIQAのための新しいマルチシーケンスネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。