論文の概要: M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2502.15167v1
- Date: Fri, 21 Feb 2025 03:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:06:57.386106
- Title: M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment
- Title(参考訳): M3-AGIQA:マルチモーダル、マルチラウンド、マルチアスペクトAIによる画像品質評価
- Authors: Chuan Cui, Kejiang Chen, Zhihua Wei, Wen Shen, Weiming Zhang, Nenghai Yu,
- Abstract要約: M3-AGIQAは、AGIの品質評価のための包括的なフレームワークである。
中間画像記述を生成する構造付きマルチラウンド評価機構を含む。
複数のベンチマークデータセットで実施された実験は、M3-AGIQAが最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 65.3860007085689
- License:
- Abstract: The rapid advancement of AI-generated image (AGI) models has introduced significant challenges in evaluating their quality, which requires considering multiple dimensions such as perceptual quality, prompt correspondence, and authenticity. To address these challenges, we propose M3-AGIQA, a comprehensive framework for AGI quality assessment that is Multimodal, Multi-Round, and Multi-Aspect. Our approach leverages the capabilities of Multimodal Large Language Models (MLLMs) as joint text and image encoders and distills advanced captioning capabilities from online MLLMs into a local model via Low-Rank Adaptation (LoRA) fine-tuning. The framework includes a structured multi-round evaluation mechanism, where intermediate image descriptions are generated to provide deeper insights into the quality, correspondence, and authenticity aspects. To align predictions with human perceptual judgments, a predictor constructed by an xLSTM and a regression head is incorporated to process sequential logits and predict Mean Opinion Scores (MOSs). Extensive experiments conducted on multiple benchmark datasets demonstrate that M3-AGIQA achieves state-of-the-art performance, effectively capturing nuanced aspects of AGI quality. Furthermore, cross-dataset validation confirms its strong generalizability. The code is available at https://github.com/strawhatboy/M3-AGIQA.
- Abstract(参考訳): AI生成画像(AGI)モデルの急速な進歩は、その品質を評価する上で大きな課題をもたらしている。
これらの課題に対処するため,M3-AGIQAを提案する。
提案手法では,マルチモーダル大言語モデル(MLLM)を共同テキストおよび画像エンコーダとして活用し,オンラインMLLMからローランド適応(LoRA)ファインチューニングによる局所モデルへの高度なキャプション機能を蒸留する。
このフレームワークには構造化された多ラウンド評価機構が含まれており、中間画像記述が生成され、品質、対応性、信頼性に関する深い洞察を提供する。
予測を人間の知覚的判断に合わせるため、xLSTMと回帰ヘッドで構築された予測器を組み込んで逐次ロジット処理を行い、平均オピニオンスコア(MOS)を予測する。
複数のベンチマークデータセットで実施された大規模な実験は、M3-AGIQAが最先端のパフォーマンスを実現し、AGI品質の微妙な側面を効果的に捉えていることを示している。
さらに、データセット間の検証は、その強い一般化性を確認する。
コードはhttps://github.com/strawhatboy/M3-AGIQA.comで入手できる。
関連論文リスト
- MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment [13.998206803073481]
本稿では,新しい画像品質評価ネットワークであるAMFF-Netを提案する。
AMFF-Netは画像のスケールアップとスケールダウンを行い、入力としてスケールされた画像とオリジナルサイズの画像を取り込み、マルチスケールの特徴を得る。
我々は3つのAGI品質評価データベースについて広範な実験を行い、実験の結果、AMFF-Netは9つの最先端の盲点IQA法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-04-23T16:02:33Z) - A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment [46.55045595936298]
MLLM(Multimodal Large Language Models)は、視覚的理解と推論において大きな進歩を経験している。
画像品質評価(IQA)のための強力でフレキシブル、解釈可能、およびテキスト駆動モデルとして機能する可能性については、まだ明らかにされていない。
論文 参考訳(メタデータ) (2024-03-16T08:30:45Z) - Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models [28.194638379354252]
本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、マルチモーダルな大規模言語モデルを利用することで、詳細な言語ベースの人間のような画像品質の評価を可能にする。
これらの結果はマルチモーダルIQA法の研究の可能性を示している。
論文 参考訳(メタデータ) (2023-12-14T14:10:02Z) - Assessor360: Multi-sequence Network for Blind Omnidirectional Image
Quality Assessment [50.82681686110528]
Blind Omnidirectional Image Quality Assessment (BOIQA)は、全方位画像(ODI)の人間の知覚品質を客観的に評価することを目的としている。
ODIの品質評価は、既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。
Assessor360と呼ばれるBOIQAのための新しいマルチシーケンスネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:55:28Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。