論文の概要: Image Aesthetic Reasoning via HCM-GRPO: Empowering Compact Model for Superior Performance
- arxiv url: http://arxiv.org/abs/2511.10055v1
- Date: Fri, 14 Nov 2025 01:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.668244
- Title: Image Aesthetic Reasoning via HCM-GRPO: Empowering Compact Model for Superior Performance
- Title(参考訳): HCM-GRPOによる画像美的推論: 高性能化のためのコンパクトモデルの構築
- Authors: Zhiyuan Hu, Zheng Sun, Yi Wei, Long Yu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)を用いた画像スクリーニングの性能について検討する。
データには128万以上のサンプルと約640万の画像を含む総合的な画像スクリーニングデータセットを収集する。
データセットは、外観変形、物理的な影、配置レイアウト、拡張の4つの側面で画像美的推論能力を評価する。
実験の結果,GPT4oやQwen-VL-Maxのような最先端のクローズドソースMLLMでさえ,画像美的推論におけるランダムな推測に類似した性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 17.319552703367567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of image generation has been significantly improved in recent years. However, the study of image screening is rare and its performance with Multimodal Large Language Models (MLLMs) is unsatisfactory due to the lack of data and the weak image aesthetic reasoning ability in MLLMs. In this work, we propose a complete solution to address these problems in terms of data and methodology. For data, we collect a comprehensive image screening dataset with over 128k samples, about 640k images. Each sample consists of an original image, four generated images. The dataset evaluates the image aesthetic reasoning ability under four aspects: appearance deformation, physical shadow, placement layout, and extension rationality. Regarding data annotation, we investigate multiple approaches, including purely manual, fully automated, and answer-driven annotations, to acquire high-quality chains of thought (CoT) data in the most cost-effective manner. Methodologically, we introduce a Hard Cases Mining (HCM) strategy with a Dynamic Proportional Accuracy (DPA) reward into the Group Relative Policy Optimization (GRPO) framework, called HCM-GRPO. This enhanced method demonstrates superior image aesthetic reasoning capabilities compared to the original GRPO. Our experimental results reveal that even state-of-the-art closed-source MLLMs, such as GPT4o and Qwen-VL-Max, exhibit performance akin to random guessing in image aesthetic reasoning. In contrast, by leveraging the HCM-GRPO, we are able to surpass the scores of both large-scale open-source and leading closed-source models with a much smaller model.
- Abstract(参考訳): 近年,画像生成の性能は著しく向上している。
しかし,マルチモーダル大言語モデル(MLLM)による画像スクリーニングの研究は,データ不足やMLLMの美的推論能力の弱さから不満足である。
本研究では,データと方法論の観点から,これらの問題に対処するための完全な解を提案する。
データには128万以上のサンプルと約640万の画像を含む総合的な画像スクリーニングデータセットを収集する。
各サンプルはオリジナルイメージと4つの生成されたイメージで構成されている。
このデータセットは、外観変形、物理的な影、配置レイアウト、拡張合理性という4つの側面で画像美的推論能力を評価する。
データアノテーションに関して、我々は、最もコスト効率の良い方法で高品質な思考連鎖(CoT)データを取得するために、純粋に手動、完全自動化、回答駆動アノテーションを含む複数のアプローチを調査する。
方法論的には,HCM-GRPOと呼ばれるグループ相対政策最適化(GRPO)フレームワークに,動的確率的精度(DPA)を付与したハードケースマイニング(HCM)戦略を導入する。
この拡張手法は、オリジナルのGRPOに比べて優れた画像美的推論能力を示す。
実験の結果,GPT4oやQwen-VL-Maxのような最先端のクローズドソースMLLMでさえ,画像美的推論におけるランダムな推測に類似した性能を示すことがわかった。
対照的に、HCM-GRPOを利用することで、大規模なオープンソースと、はるかに小さなモデルで主要なクローズドソースモデルのスコアを上回ることができる。
関連論文リスト
- More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - Image Aesthetic Reasoning: A New Benchmark for Medical Image Screening with MLLMs [20.222987035141646]
画像スクリーニングの研究はまれであり、MLLMによる性能はデータ不足のため不満足である。
本研究では,データと方法論の観点から,これらの問題に対処するための完全な解を提案する。
論文 参考訳(メタデータ) (2025-05-29T09:14:16Z) - Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。
提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文 参考訳(メタデータ) (2025-02-27T09:37:30Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization [21.846935203845728]
我々はSAM, LLM, 生成モデルの強力な機能を統合するローカルな操作データ生成パイプラインを構築している。
1)大規模では、AIが操作する画像と実画像が100万組以上含まれている。
論文 参考訳(メタデータ) (2024-06-24T11:10:41Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - CHIMLE: Conditional Hierarchical IMLE for Multimodal Conditional Image
Synthesis [5.7789164588489035]
条件付き画像合成における永続的な課題は、同じ入力画像から多様な出力画像を生成することである。
モード崩壊を克服できるImplicit Conditional Likelihood Estimation Maximum(IMLE)を利用する。
高忠実度画像を生成するために、従来のIMLEベースの手法では大量のサンプルを必要とするが、これは高価である。
画像の忠実度とモードカバレッジの点で,CHIMLEは,先行する最高のIMLE,GAN,拡散に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T18:41:44Z) - Optimizing Hierarchical Image VAEs for Sample Quality [0.0]
階層的変動オートエンコーダ (VAE) は, 画像モデリングタスクにおいて, 高精度な密度推定を実現している。
これは、画像の非知覚的な詳細を圧縮する過度に強調する学習表現によるものである。
我々は,各潜伏群におけるインフォメーション量を制御するKL重み付け戦略を導入し,学習目標のシャープネスを低減するためにガウス出力層を用いる。
論文 参考訳(メタデータ) (2022-10-18T23:10:58Z) - Perceptual Image Restoration with High-Quality Priori and Degradation
Learning [28.93489249639681]
本モデルは,復元画像と劣化画像の類似度を測定するのに有効であることを示す。
同時修復・拡張フレームワークは,実世界の複雑な分解型によく一般化する。
論文 参考訳(メタデータ) (2021-03-04T13:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。