論文の概要: Image Aesthetic Reasoning via HCM-GRPO: Empowering Compact Model for Superior Performance
- arxiv url: http://arxiv.org/abs/2511.10055v1
- Date: Fri, 14 Nov 2025 01:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.668244
- Title: Image Aesthetic Reasoning via HCM-GRPO: Empowering Compact Model for Superior Performance
- Title(参考訳): HCM-GRPOによる画像美的推論: 高性能化のためのコンパクトモデルの構築
- Authors: Zhiyuan Hu, Zheng Sun, Yi Wei, Long Yu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)を用いた画像スクリーニングの性能について検討する。
データには128万以上のサンプルと約640万の画像を含む総合的な画像スクリーニングデータセットを収集する。
データセットは、外観変形、物理的な影、配置レイアウト、拡張の4つの側面で画像美的推論能力を評価する。
実験の結果,GPT4oやQwen-VL-Maxのような最先端のクローズドソースMLLMでさえ,画像美的推論におけるランダムな推測に類似した性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 17.319552703367567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of image generation has been significantly improved in recent years. However, the study of image screening is rare and its performance with Multimodal Large Language Models (MLLMs) is unsatisfactory due to the lack of data and the weak image aesthetic reasoning ability in MLLMs. In this work, we propose a complete solution to address these problems in terms of data and methodology. For data, we collect a comprehensive image screening dataset with over 128k samples, about 640k images. Each sample consists of an original image, four generated images. The dataset evaluates the image aesthetic reasoning ability under four aspects: appearance deformation, physical shadow, placement layout, and extension rationality. Regarding data annotation, we investigate multiple approaches, including purely manual, fully automated, and answer-driven annotations, to acquire high-quality chains of thought (CoT) data in the most cost-effective manner. Methodologically, we introduce a Hard Cases Mining (HCM) strategy with a Dynamic Proportional Accuracy (DPA) reward into the Group Relative Policy Optimization (GRPO) framework, called HCM-GRPO. This enhanced method demonstrates superior image aesthetic reasoning capabilities compared to the original GRPO. Our experimental results reveal that even state-of-the-art closed-source MLLMs, such as GPT4o and Qwen-VL-Max, exhibit performance akin to random guessing in image aesthetic reasoning. In contrast, by leveraging the HCM-GRPO, we are able to surpass the scores of both large-scale open-source and leading closed-source models with a much smaller model.
- Abstract(参考訳): 近年,画像生成の性能は著しく向上している。
しかし,マルチモーダル大言語モデル(MLLM)による画像スクリーニングの研究は,データ不足やMLLMの美的推論能力の弱さから不満足である。
本研究では,データと方法論の観点から,これらの問題に対処するための完全な解を提案する。
データには128万以上のサンプルと約640万の画像を含む総合的な画像スクリーニングデータセットを収集する。
各サンプルはオリジナルイメージと4つの生成されたイメージで構成されている。
このデータセットは、外観変形、物理的な影、配置レイアウト、拡張合理性という4つの側面で画像美的推論能力を評価する。
データアノテーションに関して、我々は、最もコスト効率の良い方法で高品質な思考連鎖(CoT)データを取得するために、純粋に手動、完全自動化、回答駆動アノテーションを含む複数のアプローチを調査する。
方法論的には,HCM-GRPOと呼ばれるグループ相対政策最適化(GRPO)フレームワークに,動的確率的精度(DPA)を付与したハードケースマイニング(HCM)戦略を導入する。
この拡張手法は、オリジナルのGRPOに比べて優れた画像美的推論能力を示す。
実験の結果,GPT4oやQwen-VL-Maxのような最先端のクローズドソースMLLMでさえ,画像美的推論におけるランダムな推測に類似した性能を示すことがわかった。
対照的に、HCM-GRPOを利用することで、大規模なオープンソースと、はるかに小さなモデルで主要なクローズドソースモデルのスコアを上回ることができる。
関連論文リスト
- Image Aesthetic Reasoning: A New Benchmark for Medical Image Screening with MLLMs [20.222987035141646]
画像スクリーニングの研究はまれであり、MLLMによる性能はデータ不足のため不満足である。
本研究では,データと方法論の観点から,これらの問題に対処するための完全な解を提案する。
論文 参考訳(メタデータ) (2025-05-29T09:14:16Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization [21.846935203845728]
我々はSAM, LLM, 生成モデルの強力な機能を統合するローカルな操作データ生成パイプラインを構築している。
1)大規模では、AIが操作する画像と実画像が100万組以上含まれている。
論文 参考訳(メタデータ) (2024-06-24T11:10:41Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - CHIMLE: Conditional Hierarchical IMLE for Multimodal Conditional Image
Synthesis [5.7789164588489035]
条件付き画像合成における永続的な課題は、同じ入力画像から多様な出力画像を生成することである。
モード崩壊を克服できるImplicit Conditional Likelihood Estimation Maximum(IMLE)を利用する。
高忠実度画像を生成するために、従来のIMLEベースの手法では大量のサンプルを必要とするが、これは高価である。
画像の忠実度とモードカバレッジの点で,CHIMLEは,先行する最高のIMLE,GAN,拡散に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T18:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。