論文の概要: A Unified Agentic Framework for Evaluating Conditional Image Generation
- arxiv url: http://arxiv.org/abs/2504.07046v1
- Date: Wed, 09 Apr 2025 17:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:39.575883
- Title: A Unified Agentic Framework for Evaluating Conditional Image Generation
- Title(参考訳): 条件付き画像生成のための統一エージェントフレームワーク
- Authors: Jifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang,
- Abstract要約: コンディショナル画像生成は、コンテンツのパーソナライズ能力において大きな注目を集めている。
本稿では,条件付き画像生成タスクを包括的に評価するための統合エージェントフレームワークCIGEvalを紹介する。
- 参考スコア(独自算出の注目度): 66.25099219134441
- License:
- Abstract: Conditional image generation has gained significant attention for its ability to personalize content. However, the field faces challenges in developing task-agnostic, reliable, and explainable evaluation metrics. This paper introduces CIGEval, a unified agentic framework for comprehensive evaluation of conditional image generation tasks. CIGEval utilizes large multimodal models (LMMs) as its core, integrating a multi-functional toolbox and establishing a fine-grained evaluation framework. Additionally, we synthesize evaluation trajectories for fine-tuning, empowering smaller LMMs to autonomously select appropriate tools and conduct nuanced analyses based on tool outputs. Experiments across seven prominent conditional image generation tasks demonstrate that CIGEval (GPT-4o version) achieves a high correlation of 0.4625 with human assessments, closely matching the inter-annotator correlation of 0.47. Moreover, when implemented with 7B open-source LMMs using only 2.3K training trajectories, CIGEval surpasses the previous GPT-4o-based state-of-the-art method. Case studies on GPT-4o image generation highlight CIGEval's capability in identifying subtle issues related to subject consistency and adherence to control guidance, indicating its great potential for automating evaluation of image generation tasks with human-level reliability.
- Abstract(参考訳): コンディショナル画像生成は、コンテンツのパーソナライズ能力において大きな注目を集めている。
しかし、この分野はタスクに依存しない、信頼性があり、説明可能な評価指標を開発する際の課題に直面している。
本稿では,条件付き画像生成タスクを包括的に評価するための統合エージェントフレームワークCIGEvalを紹介する。
CIGEvalは、大きなマルチモーダルモデル(LMM)をコアとして、多機能ツールボックスを統合し、きめ細かい評価フレームワークを確立する。
さらに、細調整のための評価トラジェクトリを合成し、より小さなLMMを用いて、適切なツールを自律的に選択し、ツール出力に基づいてニュアンス分析を行う。
7つの条件付き画像生成タスクを対象とした実験により、CIGEval(GPT-4oバージョン)は人間による評価と高い相関を示し、アノテーション間の相関は0.47と密接に一致している。
さらに、2.3Kのトレーニングトラジェクトリのみを使用して7BのオープンソースLMMで実装した場合、CIGEvalは以前のGPT-4oベースの最先端手法を超越する。
GPT-4o画像生成のケーススタディでは、被験者の整合性や制御指導への固執に関連する微妙な問題を識別するCIGEvalの能力を強調し、画像生成タスクを人間レベルの信頼性で自動評価する大きな可能性を示唆している。
関連論文リスト
- Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Interleaved Scene Graphs for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models [16.18275805302776]
本稿では,その精度,安定性,微粒度を特徴とする計量であるEvalAlignを提案する。
画像の忠実度とテキスト画像のアライメントという2つの重要な側面に焦点を当てた評価プロトコルを開発する。
EvalAlignは、既存のメトリクスよりも人間の好みと密に一致し、モデルアセスメントの有効性と有用性を確認している。
論文 参考訳(メタデータ) (2024-06-24T11:56:15Z) - Global-Local Image Perceptual Score (GLIPS): Evaluating Photorealistic Quality of AI-Generated Images [0.7499722271664147]
GLIPS(Global-Local Image Perceptual Score)は、AI生成画像の写実的画像品質を評価するために設計された画像メトリクスである。
様々な生成モデルにわたる総合的なテストは、GLIPSが人間のスコアと相関する点において、FID、SSIM、MS-SSIMといった既存の指標を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-15T15:19:23Z) - GMC-IQA: Exploiting Global-correlation and Mean-opinion Consistency for
No-reference Image Quality Assessment [40.33163764161929]
我々は,グローバル相関と平均オピニオン整合性を利用する新たな損失関数とネットワークを構築した。
SROCCの微分不可能な問題を解くために、ペアワイズ選好に基づくランク推定を定義することにより、新しいGCC損失を提案する。
また,重み学習のランダム性を軽減するために,多様な意見特徴を統合した平均オピニオンネットワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T06:03:01Z) - VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation [39.88401703956412]
VIEScoreは、条件付き画像生成タスクを評価するためのVisual Instruction-Guided Explainableメトリックである。
VIEScore (GPT4-o) は人間の評価と0.4のスピアマン相関を達成し, 人と人の相関は0.45である。
VIEScore (オープンソースMLLM) は合成画像の評価において GPT-4o や GPT-4v よりもかなり弱い。
論文 参考訳(メタデータ) (2023-12-22T17:45:19Z) - Generalized Visual Quality Assessment of GAN-Generated Face Images [79.47386781978531]
GAN生成顔画像(GFI)の汎用品質評価に向けた主観的・客観的品質の検討
我々は、利用可能なGANアルゴリズムと見えないGANアルゴリズムの両方から、GFIの正確な品質予測を可能にする品質評価モデルを開発する。
論文 参考訳(メタデータ) (2022-01-28T07:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。