論文の概要: HandEval: Taking the First Step Towards Hand Quality Evaluation in Generated Images
- arxiv url: http://arxiv.org/abs/2510.08978v1
- Date: Fri, 10 Oct 2025 03:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.098255
- Title: HandEval: Taking the First Step Towards Hand Quality Evaluation in Generated Images
- Title(参考訳): HandEval: 生成した画像の画質評価に向けての第一歩を踏み出す
- Authors: Zichuan Wang, Bo Peng, Songlin Yang, Zhenchen Tang, Jing Dong,
- Abstract要約: 我々は,手固有の品質評価モデルであるHandEvalを開発した。
HandEvalは、既存のSOTAメソッドよりも人間の判断と整合している。
HandEvalを画像生成とAIGC検出パイプラインに統合する。
- 参考スコア(独自算出の注目度): 23.918454005000328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although recent text-to-image (T2I) models have significantly improved the overall visual quality of generated images, they still struggle in the generation of accurate details in complex local regions, especially human hands. Generated hands often exhibit structural distortions and unrealistic textures, which can be very noticeable even when the rest of the body is well-generated. However, the quality assessment of hand regions remains largely neglected, limiting downstream task performance like human-centric generation quality optimization and AIGC detection. To address this, we propose the first quality assessment task targeting generated hand regions and showcase its abundant downstream applications. We first introduce the HandPair dataset for training hand quality assessment models. It consists of 48k images formed by high- and low-quality hand pairs, enabling low-cost, efficient supervision without manual annotation. Based on it, we develop HandEval, a carefully designed hand-specific quality assessment model. It leverages the powerful visual understanding capability of Multimodal Large Language Model (MLLM) and incorporates prior knowledge of hand keypoints, gaining strong perception of hand quality. We further construct a human-annotated test set with hand images from various state-of-the-art (SOTA) T2I models to validate its quality evaluation capability. Results show that HandEval aligns better with human judgments than existing SOTA methods. Furthermore, we integrate HandEval into image generation and AIGC detection pipelines, prominently enhancing generated hand realism and detection accuracy, respectively, confirming its universal effectiveness in downstream applications. Code and dataset will be available.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ(T2I)モデルは、生成した画像の全体的な視覚的品質を著しく向上させたが、複雑な局所、特に人間の手において正確な細部の生成に苦慮している。
生成された手は、しばしば構造的な歪みや非現実的なテクスチャを示し、身体の残りの部分が十分に生成されている場合でも非常に顕著である。
しかし、手作業領域の品質評価はほとんど無視されており、人中心の世代品質最適化やAIGC検出のような下流作業性能が制限されている。
そこで本研究では,生成した手領域を対象とした品質評価タスクを提案する。
手品質評価モデルをトレーニングするためのHandPairデータセットをまず紹介する。
高品質のハンドペアと低品質のハンドペアで構成され、手動のアノテーションなしで低コストで効率的な監視を可能にする。
そこで我々は,手作業による品質評価モデルであるHandEvalを開発した。
MLLM(Multimodal Large Language Model)の強力な視覚的理解能力を活用し、手書きキーポイントの事前知識を取り入れ、手書き品質の認知度を高めている。
さらに、その品質評価能力を検証するために、様々な最先端(SOTA)T2Iモデルの手動画像を用いた人手による注釈付きテストセットを構築した。
その結果,HandEvalは既存のSOTA法よりも人間の判断に適合していることがわかった。
さらに、HandEvalを画像生成とAIGC検出パイプラインに統合し、生成されたハンドリアリズムと検出精度を顕著に向上させ、下流アプリケーションにおけるその普遍的有効性を確認する。
コードとデータセットが利用可能になる。
関連論文リスト
- Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images [70.49595920462579]
本研究は,AIGODIの品質評価と歪みを考慮したサリエンシ予測問題について検討する。
BLIP-2モデルに基づく共有エンコーダを用いた2つのモデルを提案する。
論文 参考訳(メタデータ) (2025-06-27T05:36:04Z) - AGHI-QA: A Subjective-Aligned Dataset and Metric for AI-Generated Human Images [58.87047247313503]
本稿では,人体画像の品質評価のための大規模ベンチマークAGHI-QAを紹介する。
データセットは、400の慎重に作成されたテキストプロンプトから生成される4,000の画像で構成され、10の最先端のT2Iモデルを使用している。
我々は,視覚的品質スコア,テキスト画像対応スコア,可視および歪んだ身体部分ラベルを含む多次元アノテーションの収集のために,体系的な主観的研究を行う。
論文 参考訳(メタデータ) (2025-04-30T04:36:56Z) - MGHanD: Multi-modal Guidance for authentic Hand Diffusion [25.887930576638293]
MGHanDは、現実的な人間の手を生成する際の永続的な課題に対処する。
実画像と生成された画像とキャプションのペアからなるデータセット上で訓練された識別器を用いる。
また,手からより詳細な指示への方向学習を行うLoRAアダプタによるテキストガイダンスも採用している。
論文 参考訳(メタデータ) (2025-03-11T07:51:47Z) - FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation [11.843140646170458]
単手画像と双手画像のための大規模ドメイン固有拡散モデルFoundHandを提案する。
2Dキーポイントとセグメンテーションマスクアノテーションを備えた大規模ハンドデータセットであるFoundHand-10Mを使用している。
本モデルでは,手の動きを再現したり,手の動きを伝達したり,新しいビューを合成したりといった,中核的な機能を示す。
論文 参考訳(メタデータ) (2024-12-03T18:58:19Z) - High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文 参考訳(メタデータ) (2024-09-29T06:46:31Z) - Adaptive Multi-Modal Control of Digital Human Hand Synthesis Using a Region-Aware Cycle Loss [12.565642618427844]
拡散モデルは、特定のポーズで人間の生成を含むイメージを合成することができる。
現在のモデルは、詳細なポーズ生成のための条件制御を適切に表現する上で課題に直面している。
本研究では,手指領域の改善に焦点をあてる拡散モデルトレーニングを実現するRACL(Regional-Aware Cycle Loss)を提案する。
論文 参考訳(メタデータ) (2024-09-13T19:09:19Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。